Post on 01-Feb-2016
description
Notas de Aula de Estatística
Professor Kleison Freitas
2015.2
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 2
Informações Sobre a Disciplina
Apresentação
Cursando a disciplina de Estatística, o acadêmico poderá utilizar a ferramenta estatística na tomada de
decisões que tangem às funções empresariais ou acadêmicas, através de uma postura crítica e reflexiva.
Objetivos
1. Compreender o uso da estatística na prática acadêmica ou empresarial;
2. Desenvolver cálculos básicos da estatística e interpretá-los;
3. Utilizar a objetividade e a probabilidade como uma base nas tomadas de decisões;
4. Entender o uso e a importância da inferência e da previsão estatística em pesquisas de mercado, de
opinião e em consultorias empresariais.
Metodologias e Recursos
Utilizar as técnicas estatísticas através de aulas expositivas, práticas em laboratório de informática com
uso do Microsoft Excel e apresentação de cases pelo professor, possibilitando o discente na resolução de
problemas em sua área de atuação e formação.
Sistema de Avaliação Verificar no Portal da disciplina
Sistema de frequência
O aluno deve ter no mínimo 75% de frequência. Se o aluno tiver acima de 15 faltas estará reprovado por
falta, visto que cada aula são três faltas ou três presenças, respectivamente.
Bibliografia Recomendada
Básica:
TRIOLA, M. F. Introdução à Estatística. 11ª Edição. Rio de Janeiro. Livros Técnicos e Científicos,
2013.
MORETIN, L. G. Estatística básica: Probabilidade e Inferência. Volume único. São Paulo: Pearson,
2010.
LAPONNI, J.C. Estatística Usando o Excel. 4ª Edição. Editora Campus, 2005.
Complementar:
LEVIN; FOX; FORDE. Estatística para Ciências Humanas. 11ª Edição. São Paulo: Pearson, 2012.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 3
Informações Sobre o Professor
Nome: Kleison de Paiva Freitas
E-mail: kfreitas@fanor.edu.br
Graduação
Curso: Estatística
Instituição: Universidade Federal do Ceará
Ano de Conclusão: 2004
Pós-Graduação
Curso: Mestrado em Logística e Pesquisa Operacional
Instituição: Universidade Federal do Ceará
Ano de Conclusão: 2009
Tema da dissertação: Alinhamento Estratégico na Cadeia Logística de Flores do Ceará – Um estudo de
caso no município de Ubajara
Experiência no Magistério
1. Professor da Universidade Federal do Ceará (UFC). Setor de estudo: Probabilidade e Estatística.
Departamento de Estatística e Matemática Aplicada (DEMA) do Centro de Ciências.
Cursos em que já ministrou/ministra aulas: Biblioteconomia, Ciências Atuariais, Ciências Biológicas,
Ciências Contábeis, Cinema, Computação, Engenharia de Alimentos, Engenharia Elétrica, Engenharia
Mecânica, Engenharia Metalúrgica, Engenharia de Pesca, Geografia, Química, Matemática e Publicidade
e Propaganda.
De Abril de 2006 a Janeiro de 2014.
2. Professor das Faculdades Nordeste (FANOR)/Devry Brasil. Cursos de graduação em que ministrou/ministra aulas: Administração, Ciências Contábeis, Construção de
Edifícios, Engenharia Ambiental, Engenharia Civil, Engenharia Elétrica, Engenharia de Produção,
Engenharia Química, Gestão Comercial, Logística, Marketing, Nutrição, Processos Gerenciais,
Psicologia, Recursos Humanos e Sistema de Informação.
Disciplinas: Estatística, Bioestatística e Pesquisa Operacional.
Desde Agosto de 2007.
Curso de pós-graduação em que ministrou/ministra aulas: MBA´s em Negócios.
Disciplina: Métodos Quantitativos e Pesquisa Operacional.
Desde Abril de 2010
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 4
Calculadoras Sugeridas e Obrigatórias
Modelo Casio fx 82 MS ou HP – Modelo: 12C
Programa Da Disciplina
CONTEÚDO
Nota de Aula 1 – Introdução Geral à Estatística: Conceito de Estatística; Aplicações; Origem;
Pesquisa de Mercado e de Opinião: Etapas, Objetivo, Briefing, Variáveis; Pesquisas Qualitativas,
Quantitativas e seus métodos;
Nota de Aula 2 - Amostragem: Inferência Estatística; População; Parâmetro; Amostra; Estimativa;
Margem de erro; Técnicas de amostragem; Amostras não probabilística; Amostras probabilísticas.
Nota de Aula 3 - Medidas descritivas para dados não agrupados: Medidas de tendência central:
Média aritmética simples; Moda; Mediana; Separatrizes, Box Plot; Medidas de dispersão: Amplitude
total; Variância; Desvio padrão; Coeficiente de variação.
Nota de Aula 4 – Correlação e Regressão Linear: Métodos de Previsão Estatística.
Nota de Aula 5 - Medidas descritivas para dados agrupados – Distribuição de Frequências: Tipos
de Frequências, Histograma, Polígono de Frequências, Ogiva de Galton, Assimetria, Curtose. Medidas
de tendência central e Dispersão para dados agrupados.
Nota de Aula 6 – Probabilidade: Conceitos Iniciais, Definição, Teorema da Soma e da Multiplicação
e Probabilidade Condicional.
Nota de Aula 7 – Tabelas Estatísticas e Gráficos através do Microsoft Excel: Tabelas; Elementos
fundamentais de uma tabela; Normas de construção de tabelas; Quadros; Banco de dados; Série
estatística; Característica de uma série estatística; Tipos de séries estatísticas; Gráficos; Elementos
essenciais dos gráficos; Tipos de gráficos; Estatísticas descritivas para dados não agrupados.
Nota de Aula 8 - Distribuição Normal de Probabilidade: Introdução breve à Probabilidade e Uso da
tabela da Normal.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 5
Nota de Aula 1 – Introdução Geral à Estatística
1. ESTATÍSTICA: É uma ciência que utiliza teorias probabilísticas para explicar a frequência da
ocorrência de eventos, tendo como objetivo maior obter, organizar e analisar dados, a fim de estimar a
previsão de fenômenos, conforme o caso estudado.
De forma prática e didática, a estatística se resume na:
A estatística é uma ciência importante, útil e com um escopo abrangente de aplicação em
negócios, administração política física e ciências sociais, dentre outras áreas, quase ilimitado.
Na prática empresarial e industrial, a Estatística é uma ferramenta-chave e segura para entender
sistemas variáveis, controlar processos, sumarizar dados e tomar decisões baseados nos mesmos.
1.1. Aplicações: Algumas ciências utilizam à estatística como uma ferramenta própria, possuindo-a com
suas terminologias próprias, como sendo:
Bioestatística: É o planejamento, coleta, avaliação e interpretação de todos os dados obtidos em
pesquisa na área biológica, médica e áreas da saúde em geral;
Estatística Econômica ou Econometria: É um ramo da estatística direcionado para a análise de
fenômenos econômicos;
Estatística aplicada à Engenharia: É um ramo da estatística que estuda as suas aplicações no controle de
processos de produtos e serviços, no planejamento de novas estratégias de produção, nas vendas, no
controle de qualidade, em ensaios destrutivos e não destrutivos, com o objetivo de verificar a
porcentagem de peças não conforme as especificações ou a probabilidade de vida de equipamentos ou
peças, dentre outras;
Estatística Física: É o ramo da física que através da estatística analisa sistemas físicos de alta
complexidade, com elevado número de entidades constituintes, como os átomos, as moléculas, os íons,
entre outros;
Estatística aplicada à Contabilidade: A estatística é utilizada na área da contabilidade para comparar o
sexo de carteira de clientes, para comparar cargos de funcionários da empresa, onde se compara o custo
gasto colocando os mais importantes acima da pirâmide para comparação entre cargos similares, variação
e montagem na estrutura de cargos e salários, contagem de estoque, de imobilizado, perdas, juros, dentre
outros;
Coleta de Dados Tratamento dos
Dados
Apresentação dos
Resultados
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 6
Estatística Populacional: É o ramo da estatística relacionado à população e à demografia (área da
ciência geográfica que estuda a dinâmica populacional humana, ou seja, as taxas de natalidade,
mortalidade, imigração, emigração, densidade populacional, IDH, dentre outros);
Estatística Social: É o ramo da estatística que avalia fatores relativos à realidade social, econômica e
ambiental de um país e seu uso para a formulação e a avaliação de políticas públicas;
Estatística Comercial;
Estatística Psicológica;
Dentre outras áreas.
1.2. Origem:
A palavra estatística originou-se da expressão latina statisticum, que significa “Estado”, que
depois de várias significados, surgiu em alemão a palavra statistik que significa “análise de dados sobre o
Estado”. O Estado teve fundamental importância na origem da Estatística como ciência, pois
originalmente, as estatísticas eram colhidas para as finalidades relacionadas com o Estado, como os
recenseamentos, por exemplo. Como disciplina, só no século XIX é que se estruturou, mas já era
conhecida desde a antiguidade, há mais de 4 mil anos.
Nas decisões do dia-a-dia, o indivíduo há de forma direta ou indireta que se basear em dados
observados para isso. Por exemplo, ao decidir pelo seguro de um carro de uma determinada seguradora,
geralmente, este procura verificar se este seguro satisfaz as suas necessidades, ou seja, se o seu preço é
compatível com o seu orçamento, além de outras características.
Posteriormente, compara se dados deste seguro com o de outras seguradoras e, através de uma
análise processada internamente em sua mente, toma-se a decisão de adquiri-lo ou não.
Essa analogia não difere na realização das pesquisas científicas, que tem por objetivo responder
as indagações ou comprovar as hipóteses elaboradas pelo pesquisador. E para isso, é preciso,
inicialmente, coletar dados que possam fornecer informações relevantes para responder esses
questionamentos, mas para que os resultados da pesquisa sejam confiáveis, tanto a coleta de dados quanto
a sua análise devem ser feitas de forma criteriosa e objetiva. Para isso, o planejamento eficaz da
realização de uma pesquisa científica é necessário. Mas para isso é necessário entender o que realmente é
uma pesquisa.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 7
1.3. Variáveis: São as características associadas ao objeto de estudo investigado ou do experimento
realizado. Podendo ser:
Qualitativas ou Categorizadas: São variáveis que exprimem qualidade do elemento investigado.
Podendo ser:
Nominal: Quando o dado se apresenta sob o aspecto qualitativo e não importa a ordem de
disposição delas, ou seja, não há uma hierarquia embutida.
Exemplos: Marca do Produto, Tipo de Produto, Área da Indústria, dentre outros.
Ordinal: Quando há uma hierarquia embutida, ou seja, um grau de relevância de um indivíduo
para outro mediante suas características.
Exemplos: Classe social, Grau de instrução, Desempenho (ótimo, bom, regular, ruim e péssimo),
Cargo dos funcionários na empresa, Grau de dor (forte, moderada ou leve), dentre outros.
Quantitativas ou Numéricas: São atributos resultantes de uma contagem ou mensuração. Podendo
ser:
Discreta: São todas as variáveis numéricas cujos valores se obtém a partir de procedimento de
contagem originado de um conjunto amostral finito ou enumerável. As variáveis discretas assumem
valores inteiros. Exemplos: Número de maquinários em uma indústria, Número de produtos
produzidos a cada hora por uma indústria, dentre outros.
Contínua: São variáveis numéricas cujos valores são obtidos por procedimento de mensuração (ou
não enumerável), de sorte que ao menos teoricamente, os resultados das medidas são capazes de
variações insensíveis ou contínuas. As variáveis contínuas podem assumir qualquer valor num
intervalo contínuo e são quantificadas em uma escala infinita de valores, por isso, diz-se que as
variáveis contínuas são muito informativas. Exemplos: Peso, Altura, Temperatura, Espessura,
Velocidade, Idade, Renda (em Reais), dentre outros.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 8
Nota de Aula 2 – Amostragem
1. INTRODUÇÃO:
O profissional, na grande maioria das vezes, trabalha com limitações de tempo, escassez
financeira, de recursos humanos, de produtos, de materiais, dentre outros, impedindo-o de analisar afundo
o processo como um todo, mas de um lado não se faz necessário estudá-lo por inteiro, pois a Estatística
defende que apenas o estudo de uma parcela deste pode atender de forma eficaz às necessidades
desejadas.
Desta forma, quando se deseja estudar uma população (ou universo) específica, o pesquisador
tem duas formas possíveis de fazê-lo, ou de forma censitária, o que exige a observação de todos os
elementos que formam essa população, ou analisar apenas uma parcela que represente este universo, ou
seja, uma amostra.
A finalidade da amostragem é permitir fazer suposições, predições, generalizações (ou
inferências) acerca de características de uma população com base na análise de apenas alguns de seus
elementos. Essa técnica é amplamente utilizada em diversas situações do dia-a-dia das empresas e de
vários pesquisadores, de várias áreas profissionais, pois proporciona economia de recursos, de tempo,
rapidez nos resultados e maior controle. No caso das indústrias, a verificação da qualidade de seus
produtos, é um exemplo disto, pois é impossível analisar todos os produtos fabricados, pois muitos deles
após a análise não podem ser mais comercializados, desta forma, isto implica em prejuízo para a empresa,
portanto recorrer a um estudo de amostragem é o indicado. Outro exemplo, é analisar a opinião de
moradores de um determinado bairro de um município em que analisar todos além de alto custo, é
demorado e inacessível a todos.
Desta forma, conhecer e entender os procedimentos básicos aplicáveis à realização de estudos
estatísticos por inferência e por consequência utilizando uma amostra significativa, é uma condição si ne
qua non para qualquer profissional de qualquer área, que queira ter uma segurança e consistência nas
tomadas de decisões. Assim, para se inteirar do assunto, alguns conceitos iniciais são necessários:
2. CONCEITOS INICIAIS:
2.1. Inferência Estatística: É o processo de generalização do universo a partir de resultados particulares,
ou seja, consiste em obter e generalizar conclusões para o todo com base no particular, isso quer dizer que
a partir de amostras tiram-se conclusões para a população.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 9
2.2. População (N): É o conjunto de todos os elementos que possuem em comum determinadas
características de interesse para uma pesquisa. Por exemplo: Pessoas, Maquinários, Soluções Químicas,
Produtos, dentre outros.
Quanto ao tamanho, a população pode ser classificada como finita ou infinita. Desta forma, as
finitas são as que possuem um tamanho limitado de elementos, em que é possível identificar do primeiro
até o último componente populacional, analogamente, as infinitas são aquelas cujo número de elementos
é ilimitado, ou seja, impossível de identificar o último indivíduo. Assim, a população, nesse caso é tão
grande que é dificultoso a sua análise com precisão.
Portanto, a escolha em analisar toda a população (censo) é uma decisão arbitrária do
pesquisador. Desta forma, os pesquisadores que optarem em utilizar o censo terão que verificar a seguinte
medida estatística conhecida como parâmetro.
2.3. Parâmetro: É a medida usada para descrever uma característica numérica da população em estudo e
para isso é necessário uma análise integral desta. Assim, como na prática este procedimento se torna
inviável, seu valor é quase sempre desconhecido, na maioria das vezes. Um exemplo prático de parâmetro
é a Idade média de todos os alunos de uma sala de aula, ou seja, a média () e a variância (2), são
exemplos de parâmetros.
Muitos pesquisadores defendem que o censo proporciona uma precisão incontestável nos
resultados estatísticos, pois todo o universo é analisado. No entanto, essa precisão pode ser contestada por
diversos fatores, dentre eles, as mudanças comportamentais dos componentes da população, nos casos em
que a pesquisa demanda período longo, ou por erros de coleta de dados, como informações inverídicas,
dentre outras. Então, para abster-se desses fatores que o censo pode causar de forma implícita e, muitas
das vezes, explícita, a utilização da amostragem é uma solução, pois a mesma permite que o pesquisador,
ao contrário do censo, cometa alguns “equívocos” previsíveis e aceitáveis ao estudo, mas para que esses
“equívocos” sejam toleráveis, faz-se necessário que o pesquisador entenda estatisticamente o que é
amostragem.
2.4. Amostra (n): É uma parcela significativa de uma população, ou seja, uma parte da população que a
representa estatisticamente.
Os pesquisadores que optarem em utilizar o processo de amostragem terão que utilizar as
seguintes medidas estatísticas conhecidas como estimativa e margem de erro.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 10
2.5. Estimativa: É o valor numérico do estimador obtido com base nos resultados amostrais. Um
exemplo prático de estimativa é a Idade média de uma parte significativa dos alunos de uma sala de aula,
ou seja, a média amostral ( x ), a variância amostral (S²), são exemplos de estimadores.
2.6. Margem de Erro (e): Um estudo em que se optou na utilização da amostragem como método de
coleta de dados, sempre apresentará uma “falha” embutida nas suas análises, visto que não se analisou
todo o universo. Essa “falha” é conhecida como margem de erro (ou erro amostral), e tem uma relação
forte e inversamente proporcional com o tamanho da amostra e dos resultados que foram obtidos com a
pesquisa, ou seja, quanto maior for a quantidade de elementos pesquisados, menor a quantidade de erros
cometidos, ou seja, menor a margem de erro, mas em contra partida, maior o custo financeiro da mesma.
E vice-versa quando o tamanho amostral for menor.
Um exemplo prático de margem de erro é visto nas pesquisas eleitorais em que através de uma
amostragem de eleitores um determinado candidato aparece com um percentual de tantos por centos de
aceitação ao pleito, levando-se em consideração a margem de erro tolerável de tantos pontos percentuais
para mais ou para menos, ou seja, ele estará entre x% e y% dentro da margem de erro, isso quer dizer que,
se fosse analisada toda a população de eleitores, existem uma possibilidade de que no dia da eleição o
resultado percentual do candidato fique entre x% e y%.
A margem de erro é definida, na grande maioria das vezes, antes da coleta de dados, para evitar
assim retrabalho aos pesquisadores do estudo, pois caso a margem de erro fique muito alta (acima de 5%
para mais ou para menos), o retrabalho é inevitável ocasionando um custo a mais a quem encomendou a
pesquisa, e isso ocorre, na prática, por falta de planejamento amostral adequado ao estudo almejado.
Assim, para planejar um estudo estatístico com uso de amostragem faz-se necessário conhecer
dois processos básicos de amostragens, as amostras não probabilísticas e as probabilísticas.
3. TÉCNICAS DE AMOSTRAGEM:
3.1. Amostras Não Probabilísticas: Uma amostra é não probabilística (ou não casual ou não aleatória),
quando a probabilidade de seleção de cada unidade amostral da população é desconhecida. Nesse caso,
não se podem supor os resultados obtidos para o universo da população, visto que a amostra, por ser não
probabilística é não significativa. Desta forma, devem ser evitadas, porque além de não conhecer a
margem de erro e a confiabilidade, introduzem tendenciosidade (ou viés ou vício) na seleção das unidades
e estimação das mesmas, ou seja, distorcendo os dados do estudo para uma determinada direção.
As amostras não probabilísticas mais comuns são:
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 11
a) Amostras por Conveniência: As amostras por conveniência ocorrem quando as unidades a serem
analisadas estão mais acessíveis ao pesquisador de acordo com as conveniências sociais, econômicas, de
tempo, dentre outras. É um tipo de amostragem que é vantajosa por ser rápida, de baixo custo e de fácil
acessibilidade, mas não há nada que a credite estatisticamente.
b) Amostras por Cotas: São amostras em que se leva em conta a porcentagem de alguma(s)
característica(s) da população de origem.
c) Amostras por Julgamento ou Intencional: É uma forma de amostragem por conveniência na qual os
elementos populacionais são selecionados com base no julgamento arbitrário do pesquisador, ou seja, o
pesquisador identifica os elementos que corroborarão com o objetivo do seu estudo sem o risco de fugir
deste objetivo pré-definido, ou seja, não há uma escolha aleatória dos elementos pesquisados e sim o
contrário.
d) Amostras de Voluntários: Quando a pesquisa inclui alguns procedimentos perigosos, difíceis ou
dolorosos, desta forma a amostragem de sujeitos voluntários é a mais indicada, pois somente voluntários
estarão dispostos a participar. O problema deste tipo de amostragem é que ao ser colocado um anúncio
em uma rede social, por exemplo, para recrutar voluntários, só responderão pessoas muito especiais,
como por exemplo, pessoas aventureiras, ou as pessoas mais corajosas ou as mais motivadas. E muita das
vezes, este tipo de pessoa, nem faz parte do público-alvo do estudo.
3.2. Amostras Probabilísticas: Uma amostra é probabilística (ou ao acaso ou aleatória) quando cada
unidade amostral tem uma probabilidade conhecida e diferente de zero de ser escolhida frente a
população de origem, garantindo, se for realizada de forma correta, a isenção de vícios.
As técnicas de amostragem probabilística consistem em Amostra Aleatória Simples, Amostra
Aleatória Estratificada, Amostra sistemática e Amostra por Conglomerado:
a) Amostra Aleatória Simples (AAS): Selecionado por um processo ao qual a probabilidade de escolha
de todos os elementos é a mesma para todos, ou seja, a população de origem é consideração homogênea,
pois os seus elementos têm características parecidas entre si.
a1) Fórmula para determinação do tamanho da amostra com AAS:
Fonte: Barbetta (2001)
0
0.
nN
nNn
Onde:
N = Tamanho da população
n = Tamanho da amostra
Se a confiança do estudo for de 95%, de acordo a tabela da Normal Padrão: ²
10
en ,
onde e = margem de erro.
Se a confiança for 96%: ²
06,20
en
Se a confiança for 97%: ²
17,20
en
Se a confiança for 98%: ²
33,20
en
Se a confiança for 99%: ²
575,20
en
Se a confiança for 99,9%: ²
30
en
OBS 1: O n0 representa a primeira aproximação do tamanho da amostra (n) caso não se conheça o N.
OBS 2: Caso conheça o N seja muito grande (tender para o infinito), não é necessário considerar o seu
tamanho exato. Neste caso, o cálculo da primeira aproximação (n0) já é suficiente para o cálculo.
OBS 3: Uma amostra aleatória simples pode ser selecionada escrevendo os elementos da população,
numerados de 1 a N, em N cartões, misturando-os numa urna e sorteando, “sem reposição”, n desses
cartões. Ou seja, a amostra consiste daqueles elementos da população, cujas identificações correspondem
aos números selecionados. Existirão )!(!
!
nNn
N
n
N
amostras possíveis diferentes de tamanho n. Nesse
caso, haverá dependência nas retiradas, pois o fato de não recolocar o elemento retirado afeta a
probabilidade de o elemento seguinte ser retirado.
OBS 4: A amostra aleatória simples pode ser também “com reposição” consiste em selecionar n
elementos um de cada vez, a partir dos elementos da população (N), repondo o elemento sorteado na
população antes do próximo sorteio. Com tal procedimento, qualquer elemento pode ser sorteado mais do
que uma vez. Nesse caso, haverá independência entre as retiradas, pois o fato de recolocar o elemento
retirado não afeta a probabilidade de o elemento seguinte ser retirado.
OBS 5: É bom lembrar que a partir de um determinado número da população a ser investigada, a amostra
não sofre variação considerável para mais ou para menos e, portanto, não adianta aumentar o número
amostral, imaginando que poderá haver mais resultados porque este não sofrerá alteração significativa.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 13
Exemplo 1: Pensando em proporcionar ainda mais praticidade e comodidade para o aluno, a Devry
Brasil criou no ano 2014 o aplicativo Devry Aluno. Por meio dele, os estudantes da Fanor podem utilizar
seus smartphones IOS para solicitar alguns serviços realizados pelo Núcleo de Atendimento ao Aluno
(NAA) da faculdade e fazer tudo com mais agilidade, como por exemplo:
há nos cursos de engenharias do campus 2.356 alunos regularmente matriculados. Assim, qual deve ser a
quantidade de alunos a serem pesquisados pela faculdade, se for considerado:
a) Uma margem de erro de 4%, com uma confiança de 95%?
b) Se diminuirmos a margem de erro para 2%, qual será o tamanho da amostra (n), mantendo a mesma
confiança de 95%?
c) E se pesquisássemos 2000 clientes, qual seria a margem de erro, com a confiança de 95%?
Baseado nos itens anteriores:
d) Se para a faculdade o que importa é o resultado estatístico da pesquisa, qual das alternativas (“a”, “b”
e “c”) você aconselharia ela a utilizar? Por quê?
e) Se para a faculdade o que importa é o quanto ela vai pagar pela pesquisa, ou seja, o custo da mesma,
qual das alternativas (“a”, “b” e “c”) você aconselharia ela a utilizar? Por quê?
f) Se para a faculdade o que importa é o resultado estatístico da pesquisa e ao mesmo tempo com menor
custo, qual das alternativas (“a”, “b” e “c”) você aconselharia ela a utilizar? Por quê?
- Solicitar declaração de matrícula para fins diversos;
- Solicitar Histórico Escolar;
- Solicitar Revisão de Prova Final;
- Acompanhar e ser avisado sobre o vencimento de faturas, evitando
multas desnecessárias;
- Manter-se atualizado e ser alertado sobre os principais eventos do
Calendário acadêmico oficial de sua faculdade, dentre outros.
Visando a satisfação de seus clientes (ou atuais alunos), a Devry Brasil
deseja fazer melhorias no seu aplicativo e adequá-lo às necessidades
destes. Para isso, será feita uma pesquisa estatística entre os alunos dos
cursos de engenharias da Fanor, para verificar quais melhorias devem
ser implementadas. De acordo o último levantamento feito em Julho de
2015,
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 14
b) Amostra Aleatória Estratificada (AAE): Muitas vezes a população se divide em subpopulações (ou
estratos), sendo razoável supor que em cada estrato a variável de interesse analisada apresenta um
comportamento substancialmente diverso, ou seja, a população é considerada heterogênea, mas
homogêneo dentro de cada estrato.
Assim, deve-se adotar um tipo de amostragem que represente bem as diferentes características
dentro de cada um dos grupos, podendo ser, por exemplo, proporcional ao tamanho de cada um deles.
Exemplo 2: A prefeitura de Fortaleza implantou o sistema de bicicletas públicas chamado “Bicicletar”,
que visa oferecer à cidade uma opção de transporte sustentável e não poluente. Este projeto é operado
pela empresa Serttel e tem o apoio da Unimed Fortaleza. O Sistema é composto por estações inteligentes,
conectadas a uma central de operações via wireless, alimentadas por energia solar, distribuídas em pontos
estratégicos da cidade, onde os clientes cadastrados podem retirar uma bicicleta, utilizá-la em seus
trajetos e devolvê-la na mesma, ou em outra Estação.
Sendo assim, o nutricionista conseguiu levantar com a empresa operadora que a quantidade de ciclistas
que retiraram as bicicletas em no mínimo 3 vezes por semana na região estabelecida foi de 1.259, mas há
uma diferença de quantidade de usuários por estações, sendo que no mês passado, houve na Estação
Náutico 248 usuários, na Estação Aterro de Iracema com 189 usuários e na Estação Aterrinho da Praia de
Iracema com 822 usuários. Assim, qual deve ser a quantidade de usuários a serem pesquisados pela
empresa de consultoria, por estação e de forma proporcional, com uma margem de erro de 2,5% para
mais ou para menos e uma confiança de 98%, como sugeriu a prefeitura?
OBS: A pesquisa será feita através do aplicativo que o usuário tem acesso no ato que fez o cadastro para
aderir ao sistema.
Um nutricionista deseja fazer um estudo com o
objetivo de verificar a prevalência de usuários do
sistema que utilizam suplementos alimentares antes
e/ou após à prática do esporte. Os usuários definidos
por ele são os que retiraram as bicicletas nas estações
da Avenida Beira Mar. Assim, para participar do
estudo, foi definido ainda que os usuários devam ter
utilizados o sistema em no mínimo três vezes por
semana no turno manhã, tarde e/ou noite,
independente do gênero e idade, no último mês.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 15
c) Amostra Sistemática (AS): Esse tipo de amostragem é uma variação da amostragem aleatória
simples, mas que exige que um sistema aleatoriamente seja definido.
Segue abaixo outros tipos de exemplos de amostras sistemáticas:
Exemplo1: Um engenheiro de controle da qualidade seleciona cada centésima fonte de computador que
passa em uma esteira transportadora.
Exemplo2: Um professor retira da população para compor a amostra os alunos aleatoriamente escolhidos
que possuem o algarismo “0” como último número da sua matrícula.
Exemplo3: Uma indústria tem 900 máquinas e o engenheiro de produção deseja uma amostra formada por
50 máquinas para uma pesquisa. Pode-se, neste caso, usar o seguinte procedimento: Como 900/50 = 18,
escolhe-se por sorteio casual um número de 01 a 18, o qual indicaria o primeiro elemento sorteado para a
amostra, os demais elementos seriam periodicamente considerados de 18 em 18. Assim, se supor que o
número sorteado fosse 4, a amostra seria: 4ª máquina, 22ª máquina, 40ª máquina, 58ª máquina, 76ª
máquina, dentre outros. Ao final, pode-se voltar ao início para completar a quantidade amostral a
pesquisar.
d) Amostra por Conglomerado: Primeiramente, na amostra por conglomerado, a população-alvo é
dividida em estratos mutuamente exclusivos e coletivamente exaustivos. Após isso, reduz-se,
arbitrariamente, a quantidade de estratos a serem analisados. Após isso, sorteiam-se quais grupos serão
pesquisados e por fim, define-se qual o tipo de amostra probabilística deverá ser utilizada (AAS, AAE ou
AS). Podendo também, se assim o pesquisador desejar, utilizar o censo nos grupos selecionados para
coleta de dados. Com isso, a amostragem por conglomerado tem duas grandes vantagens: a viabilidade e
o baixo custo, ou seja, a que traz o menor custo-benefício, se comparado às outras técnicas probabilísticas
disponíveis.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 16
Exemplo 3: Considere que um pesquisador deseja avaliar através de uma pesquisa por amostragem a
opinião dos alunos de engenharia da Fanor sobre a sua satisfação com relação à coordenação do seu
curso. Assim, levantou-se a população de alunos por cada curso da referida área, como segue abaixo:
Cursos Quantidade Populacional
Engenharia Ambiental e Sanitária 469
Engenharia Civil 403
Engenharia de Produção 739
Engenharia Elétrica 593
Engenharia Mecânica 440
Engenharia Química 198
Total 2.842 Fonte: Coordenação dos Cursos de Engenharia - Fanor (2014)
Se esse pesquisador fizer uma amostra por conglomerado para 3 cursos, quantos alunos serão
pesquisados, com uma margem de erro de 2% e uma confiança de 95%, levando em consideração um dos
métodos de amostragem (AAS, AAE ou AS)?
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 17
Nota de Aula 3 – Medidas Descritivas para dados
não agrupados
1. INTRODUÇÃO:
Para a maioria das pessoas, estatística significa descrever números da forma mais entendível
possível, como por exemplo, as taxas mensais de desemprego no Brasil após a alta do dólar no mercado
atual, o índice de falências empresariais ocorridas no Brasil de 2010 para cá, a proporção de mulheres que
assumem cargos de CEO no mercado brasileiro nos últimos dois anos, a proporção de eleitores que
votarão em um determinado candidato nas próximas eleições, o nível de satisfação de clientes de uma
determinada loja de conveniência de um determinado Shopping Center, dentre outros.
Todos esses exemplos representam descrições estatísticas de um conjunto de dados coletados
sobre algum fenômeno e para isso não é preciso usar a inferência estatística ainda, pois o objetivo aqui é
apenas descrever estatisticamente essas informações.
A descrição estatística dos dados verifica a localização central e a variabilidade desses dados
através de médias, medianas, modas, variâncias, desvios-padrão e coeficientes de variação. Ainda, há
métodos ilustrativos que possibilitam uma melhor interpretação deles, como os gráficos, dos quais pode-
se citar os histogramas, os diagramas de ramo-e-folhas, os diagramas de pontos, os gráficos de caixa
(box-blot), dentre outros.
A descrição dos dados se dá em duas formas, tanto para dados agrupados em classes como para
dados não agrupados. Esta nota de aula verificará apenas os dados não agrupados, e está divido em
medidas de tendência central e medidas de dispersão.
2. MEDIDAS DE TENDÊNCIA CENTRAL
As chamadas medidas de tendência central têm por objetivo verificar o centro da distribuição dos
dados, ou seja, verificar através de medidas específicas o centro do conjunto de dados. As medidas de
tendência central mais utilizada são a média aritmética, a moda e a mediana. As usadas com menos
frequências são as médias geométricas, harmônicas, quadráticas, cúbicas e biquadráticas.
As outras medidas de posição usadas com menos intensidade são as separatrizes, que englobam:
a própria mediana através dos decis, dos quartis e dos percentis.
Para início desta nota de aula, a primeira medida de tendência central a ser analisada é a média
aritmética simples, como segue:
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 18
2.1. Média Aritmética Simples: É definida como sendo o quociente da soma de todos os valores de um
conjunto de dados pelo total de valores deste conjunto.
Média amostral Média populacional
n
x
X
n
i
i 1
N
xN
i
i 1 , Onde
xi = Valores da variável
n = Número de valores da amostra
N = Número de valores da população
OBS1: A média por ser influenciada por todos os valores do conjunto de dados é considerada como uma
medida sensível, ao contrário das outras medidas de tendência central existentes.
Propriedades:
a) A média de um grupo de dados sempre será única, independente da sua localização;
b) A soma algébrica dos desvios tomados em relação à média é sempre nula:
n
i
i Xx1
0
c) O resultado de multiplicar a média pela quantidade “n” de valores da variável x é igual a soma dos “n”
valores da variável;
d) Somando-se ou subtraindo-se uma constante “c” (valor invariável) a todos os valores de uma variável,
a média do conjunto ficará aumentada ou diminuída dessa constante, respectivamente, de forma análoga,
se multiplicar ou dividir, a média ficará multiplicada ou dividida, respectivamente.
n
cx
X
n
i
i
1 e
n
cx
X
n
i
i 1
.
e n
c
x
X
n
i
i
1
Falando ainda de média, há a média aparada, que não é tão utilizada na prática estatística pois a
mesma tende a manipular o resultado final desta medida de tendência central, mas vale a pena conhecer o
que é este tipo de medida como segue no próximo tópico.
2.1.1. Média Aparada: Uma média aparada é calculada aparando-se certa porcentagem dos maiores ou
menores valores do conjunto de dados. Por exemplo, para calcular a média aparada de 10%, deve-se
eliminar 10% dos valores maiores e 10% dos valores menores, e então calcular a média dos valores que
sobraram. Podendo-se usar de forma arbitrária a porcentagem a ser retirada da amostra para um novo
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 19
cálculo. Ao contrário da média aritmética, a média aparada é uma medida resistente, pois não sofre
influência dos valores extremos.
A segunda medida de tendência central a analisar é a moda, como segue no próximo tópico.
2.2. Moda (Mo): Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê
bastante. Na Estatística, como o próprio nome sugere, a Moda é aquele elemento que mais vezes aparece
no conjunto de dados. Não é muito sensato dizer que a moda é uma medida de tendência central, pois
nem sempre ela representa o centro do conjunto de dados, visto que ela identifica o(s) valor(es) que
ocorre(m) com maior frequência, podendo ser único, se existir, como pode também não existir. Nesse
caso, é mais correto chamá-la de medida de posição.
Quando dois valores ocorrem com a mesma frequência máxima, cada um deles é uma moda.
Das diferentes medidas de tendência central, a moda é a única medida que pode ser usada com
dados em nível nominal de mensuração, conforme o exemplo 1:
Exemplo 1: Um estudo sobre tempos de reação de pessoas em um teste foi composto por 30 canhotos, 50
destros e 20 ambidestros. Embora não possamos tomar a média numérica dessas características, podemos
afirmar que a moda é destro, que é a característica com maior frequência.
Quando no conjunto há apenas um valor que se repete além dos demais de forma máxima,
chama-se este conjunto de unimodal, bem como se tiver dois valores que se repete além dos demais, de
forma máxima e na mesma quantidade é bimodal, assim acima de 2 modas é multimodal. Se o conjunto
de dados não tiver nenhum valor que se repete além dos demais de forma máxima, o conjunto de dados é
amodal.
OBS2: Se o conjunto de dados tiver os valores: 1, 1, 2, 2, 3, 3, o conjunto é multimodal, pois todos os
valores se repetem 2 vezes, ou seja, a frequência é a mesma para todos. Agora se for: 1, 2, 3, 4, é amodal,
pois não há repetição de valores.
E se for: 10, 10, 10, 10 é unimodal, pois o valor 10 é o que ocorre com maior frequencia.
A terceira medida de tendência central a ser analisada é a mediana. Muitos confundem a mediana
com a média, mas são medidas completamente diferente, tanto na sua forma de encontrar quanto na sua
interpretação, como segue no próximo tópico.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 20
2.3. Mediana (Md):
A mediana é uma medida de tendência central que ocupa a posição central dos dados
observados, quando estes estão ordenados em ordem crescente ou decrescente (rol), tendo uma mudança
na sua realização se a quantidade de dados é par ou ímpar.
Sendo assim, se o conjunto de dados (n) é constituído por um número ímpar de dados, a mediana
é o valor que fica no centro dos dados ordenados que pode ser encontrado através da seguinte notação:
2
1n
Pelo exemplo 2, como segue, é possível verificar como é a realização da mediana para uma
quantidade ímpar de valores.
Exemplo 2: Notas de alunos de uma determinada disciplina: 8 7 3 4 8
Solução:
Ordenar os dados: 3 4 7 8 8
Mediana (Md) =
Interpretação:
Agora, se o conjunto de dados (n) é constituído por um número par de dados, a mediana é a
média aritmética dos dois valores que ficam na posição central dos dados ordenados que pode ser
encontrado através da seguinte notação:
2
122
nn
Pelo exemplo 3, como segue, é possível verificar como é a realização da mediana para uma
quantidade par de valores.
Exemplo 3: Notas de alunos de uma determinada disciplina: 8 7 3 4 8 9
Solução:
Ordenar os dados: 3 4 7 8 8 9
Mediana (Md) =
Interpretação:
A mediana tem como vantagem a não afetação por valores extremos, ao contrário da média
aritmética, por isso a mediana é uma medida mais “robusta” (forte) que a média, pois na média qualquer
alteração nos dados, modifica-se o valor da média, e a mediana nem sempre isso acontece.
Depois de verificado as três medidas de tendência central que são utilizadas com maior
freqüência, dentre as três, a média aritmética é a medida mais usada na tomada de decisão, pois a mesma
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 21
é encontrada com uso de todos os valores do conjunto de dados, ao passo que a mediana e a moda não
utiliza todos eles, e sim alguns ou nenhum dos valores (amodal), apresentado resultados “distorcidos” da
realidade dos dados apresentados.
Quando se descreve os dados, além das medidas de tendência central, é necessário analisar a
variabilidade dos dados, pois através destas pode-se tirar algumas conclusões mais consistentes na tomada
de decisão. Assim, o próximo item mostrar as medidas de variabilidades mais utilizadas no campo
estatístico.
3. MEDIDAS DE DISPERSÃO:
Ao se fazer a descrição dos dados, além de verificar o centro da distribuição deles através das
medidas de tendência central é prescindível verificar também se os dados se comportam de forma
homogênea ou heterogênea, e isso será possível através das medidas de dispersão.
Essa verificação é importante, pois através delas podem-se tomar decisões mais consistentes e
eficazes. Um exemplo disso eram que os bancos, há uns anos atrás, costumavam exigir que os clientes
formassem filas separados para os diversos guinches, mas atualmente passaram adotar a fila única. O
motivo dessa modificação foi que o tempo médio de espera era o mesmo para ambos os formatos de filas,
não afetando a eficiência dos caixas, mas a adoção de fila única ocorreu ao fato de os clientes preferirem
tempos de espera com menor variação. Assim, é que milhares de bancos efetuaram essa modificação que
resultou em uma variação menor (e clientes mais satisfeitos), mesmo que a média de tempo de
atendimento não tenha sido afetada.
Com isso, pode-se concluir que as medidas de dispersão avaliam a variabilidade dos dados com
relação à sua média. As medidas de dispersão mais usadas são a amplitude total, variância, desvio padrão
e coeficiente de variação.
A primeira medida de dispersão a ser analisada nesta nota de aula será amplitude total, como
segue no tópico seguinte.
3.1. Amplitude total (At):
A amplitude total é a medida mais simples de variação que existe, e é obtida através da diferença
entre o maior e o menor dos valores da série. A ressalva para esta medida simples de dispersão é que por
não levar em consideração os valores intermediários, essa medida não possibilitará analisar como os
dados estão distribuídos e/ou concentrados, visto que só é feita uma análise dos extremos deste.
At = Vmáx – Vmin
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 22
Pelo exemplo 4 é possível verificar que se não for levado em consideração os valores em si,
pode-se tomar conclusões bastante equivocadas, pois amplitude total é a mesma para ambas as turmas,
mas os valores de cada uma delas são visivelmente diferentes.
Exemplo 4: Notas de provas de duas turmas de 9 alunos
Turma 1: 1, 1, 1, 2, 2, 2, 3, 3, 3
At = 3 - 1 = 2
Turma 2: 8, 8, 8, 9, 9, 9, 10, 10, 10
At = 10 - 8 = 2
O que se pode concluir com essa medida, além de verificar a distância no maior para o menor
valor, é que quanto mais longa é essa distância, mais heterogêneos são os dados e caso contrário, mais
homogêneos.
Agora, a amplitude total, será utilizada de forma necessária e obrigatória na construção de uma
distribuição de frequências, que será vista mais adiante.
Assim, a segunda medida de dispersão que realmente pode ser utilizada para análise é a
variância, como segue.
3.2. Variância (S²):
A variância é uma medida de dispersão que mensura a variabilidade dos dados, através da soma
do quadrado dos desvios pela quantidade de valores da variável menos um (n-1) no caso amostral, e por N
se for populacional.
Pela propriedade “b” da média aritmética, verifica-se que a soma dos desvios será sempre zero,
fazendo com que o pesquisador suponha que não há desvio (ou variabilidade) no conjunto de dados
analisado, mas se todos os valores não forem iguais, haverá variabilidade sim, mas mesmo assim sempre
somando os desvios o resultado será zero. Nesse caso, para que esse problema seja contornando, eleva-se
os desvios ao quadrado, ocasionando a não anulação dos mesmos.
Com isso, a notação matemática da variância é:
Variância amostral Variância populacional
1
1
2
2
n
Xx
S
n
i
i
N
xn
i
i
1
2
2
, onde
xi = Valores da variável xi = Valores da variável
X = Média aritmética simples µ = Média populacional
n = Número de valores da amostra N = Número de valores da população
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 23
Propriedades:
a) A variância de uma constante “c” é igual a zero;
b) Ao somar ou subtrair uma mesma constante “c” a todos os valores do conjunto de dados, a variância
não ficará alterada;
c) Se multiplicar ou dividir cada valor do conjunto de dados por uma mesma constante “c”, a variância
ficará multiplicada ou dividida, respectivamente, pela constante ao quadrado (c²).
Mas, mesmo elevando os desvios ao quadrado, surge o seguinte questionamento: E se ao invés
de elevar cada desvio ao quadrado e depois somar, não seria melhor utilizar o módulo, em que os desvios
resultam em valores absolutos e depois utilizar a soma deles? Ou seja, assim:
n
i
i Xx1
? E após isso,
dividir tudo pela quantidade de valores (n), obtendo aí o desvio médio dado pela seguinte notação
n
Xx
DM
n
i
i
1 ?
A resposta para essa pergunta é não, pois o módulo fará com que os desvios negativos fiquem
positivos, apresentando uma realidade distorcida dos dados.
Ao elevar ao quadrado, todos os desvios são elevados ao quadrado e não somente alguns,
portanto, o melhor a ser utilizado é a variância porque ela dá certeza absoluta que as amostras são
diferentes. Já o módulo não dá essa informação de variabilidade, ao contrário, ele nos dá evidências de
que as amostras são iguais. Por exemplo: Suponha que uma turma fez uma prova e a média desta foi 7,0,
e um aluno tirou 8,0, ou seja, a dispersão foi de 1 ponto para mais (8 - 7 = 1 ponto). Se outro aluno tirar
6,0, a dispersão é 1 ponto para menos (6 – 7 = -1 ponto). Se usar o módulo, a dispersão ao invés de ser -1
e 1, será 1 e 1, mostrando que não há dispersão das notas dos dois alunos, ou seja, ao invés de um aluno
ter tirado a nota 6 e o outro a nota 8, ambos tiraram a nota 8, pois o desvio com o uso do módulo foi 1
ponto para mais.
Mas mesmo a variância sendo considerada a ideal para tomar decisões sobre a variabilidade dos
dados, a mesma apresenta um grande problema com unidade de medida dos dados que a compõem, pois
estes serão elevados ao quadrado, dificultando assim a sua interpretação, pois se a unidade de medida for
em metro, será metro quadrado, se for em centímetro, ficará centímetro ao quadrado e assim por diante.
Para contornar esse problema e verificar os dados com a unidade de medida original, aconselha-
se tirar a raiz quadrada da variância. Nesse caso, chega-se a outra medida de dispersão, o chamado desvio
padrão, mas antes de analisar esta medida de dispersão, faz-se necessário se atentar para as seguintes
observações:
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 24
OBS3: Para um melhor entendimento da divisão por “n-1” na fórmula da variância e não por “n” apenas, é
que a variância trabalha encima de “n-1” valores, pois se subtende que pelo menos um valor é a própria
média (não havendo dispersão de um valor, nesse caso). Portanto, a variabilidade será entre “n-1” valores
e não “n”.
Por exemplo, sejam os seguintes valores: 1, 2 e 3, a média é “2”, ou seja, um valor é a própria média, mas
dois valores não, ou seja, 2 = n-1 = 3-1 = 2. Mas isso não tem 100% de certeza não, pois tem casos em
que a média não é igual ao conjunto de valores.
OBS4: Observe que no cálculo da variância amostral (S²), deve-se dividir a soma dos quadrados dos
desvios por “n-1”e não por “n” apenas. Isso se dá, pois através de estudos que serão vistos em Estimação
de Parâmetros, a variância amostral (S²) tende a estimar de forma distorcida a variância populacional (²)
se for dividido apenas por “n”, então para que S² seja um estimador não viciado ou não tendencioso de ²
deve-se dividir por “n-1”.
Há uma demonstração que prova que E(S²) = ², mostrando que a esperança da variância amostral é igual
a variância populacional, ou seja, a variância amostral com divisão da sua fórmula por “n-1” representa
de forma eficaz e inferencial a variância populacional, sem ter analisado a população em si.
OBS5: Quando o tamanho da amostral é suficientemente grande (é usual considerar um valor de n
superior a 30) não há praticamente diferença entre S² e ², assim pode-se dividir por “n-1” ou por “n”,
respectivamente que o resultado será aproximadamente o mesmo, pois, para comprovação S²/² será
aproximadamente 1, não fazendo diferença nenhuma nos cálculos. Agora, se n for menor que 30, essa
divisão será bem menor que 1 mostrando que não é a mesma coisa, devendo assim não deixar de dividir
por n-1 se for o amostral e por n se for o populacional.
Após, as observações anteriores, faz-se necessário verificar a medida de dispersão realmente
utilizada na tomada de decisão, o desvio padrão.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 25
3.3. Desvio Padrão (S):
O desvio padrão é uma medida de variabilidade dos valores com relação à média deles, mas ao
contrário da variância, esta medida utiliza-se à mesma unidade de medida dos dados originais, por isso
esta é utilizada com maior frequência que a variância (S²). A notação matemática do desvio padrão, que é
a raiz quadrada da variância é como segue:
1-n
)(xn
1i
2
i
X
S
A última medida de dispersão a ser analisada é o coeficiente de variação, como segue no
próximo tópico.
3.4. Coeficiente de Variação de Pearson (CV):
O coeficiente de variação é uma medida de dispersão relativa que avalia o quanto o desvio
padrão representa com relação à média aritmética de um conjunto de dados. Assim, quanto menor for o
CV, mais homogêneo será o conjunto de dados, ou seja, com menor variabilidade entre eles, caso
contrário haverá uma grande variabilidade. Assim, a notação do coeficiente de variação é a seguinte:
100
X
SCV
Mas para afirmar se os dados são ou não passíveis de grandes ou pequenas variabilidades,
adota-se o ponto de corte percentual como segue:
Se CV < 50% (Há baixa dispersão entre os dados, ou seja, eles são homogêneos)
Se CV 50% (Há alta dispersão entre os dados, ou seja, eles são heterogêneos)
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 26
Anexo 1 – Manual da Calculadora Cientifica e HP
Financeira
Manual para cálculo de Estatística descritiva, Correlação e Regressão Linear
Calculadora Científica – Modelo: Casio fx 82MS
1. Média e Desvio Padrão:
Colocar no modo estatístico: Clicar em Mode 2 (Sd)
Digitar os seguintes números 1, 2 e 3 assim:
1 M+
2 M+
3 M+
Encontrar o valor da média:
Clicar em Shift 2 (S-VAR) 1 = (Sairá o valor da média igual a 2)
Encontrar o valor do desvio padrão:
Clicar em Shift 2 (S-VAR) 3 = (Sairá o valor do desvio padrão igual a 1)
Manual para cálculo de Estatística descritiva, Correlação e Regressão Linear
Calculadora Financeira HP – Modelo: 12C
1. Média e Desvio Padrão:
Limpar a memória: f CLx
Adicionar valores (1, 2, 3) na memória da calculadora assim: 1 + 2 + 3 +
Calcular a média: g 0
Calcular o desvio padrão: g (ponto)
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 27
Anexo 2 – Estatística Descritiva com uso do Microsoft Excel
1º Passo: Abrir o Excel
Ao abrir o Excel: Digitar o banco de dados abaixo referente ao Salário Mínimo dos funcionários de
uma determinada Empresa.
Funcionário
Nº. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Salário (S.M*) 6 7 11 4 13 8 7 15 9 11 10 16 5 13 8 19 8 12
Funcionário
Nº. 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Salário (S.M*) 14 16 5 17 9 11 9 10 6 15 7 12 23 7 17 9 14 19
2º Passo: Estatística Descritiva de todas as variáveis quantitativas: Salário
Acionar a Ferramenta “Análise de Dados”:
Clicar no Botão Office:
Clicar em Opções do Excel Suplementos Em gerenciar, clicar em Ir Clicar em Ferramentas de
Análise OK: A função ficará acionada na função Dados.
Dados Análise de Dados Estatística descritiva:
Em Intervalo de entrada: Selecionar todas as células da variável quantitativa em estudo, inclusive o título
da variável (Pode selecionar tudo de uma vez só) Selecionar Rótulos (OBS: Como selecionou o título,
é necessário clicar em rótulo);
Em Opções de Saída: Clicar em “Nova Planilha” e “Resumo estatístico”.
O resultado está na tabela abaixo com as suas respectivas interpretações abaixo:
Saída do Excel:
Salário (S.M)
Média 11,12
Erro padrão 0,76
Mediana 10,165
Modo 7,0 e 9,0
Desvio padrão 4,58
Variância da amostra 21,04
Curtose -0,014
Assimetria 0,65
Intervalo 19,3
Mínimo 4
Máximo 23,3
Soma 400,4
Contagem 36 Interpretação da variável salário:
Média: A média salarial dos 36 funcionários é de 11,12 s.m.
Mediana: 50% dos funcionários ganham abaixo de 10,16 s.m e 50% acima.
Moda: Os salários que mais ocorreu entre os funcionários foi 7 e 9 s.m.
Desvio Padrão: (11,12 4,6), ou seja, a maioria dos funcionários ganham entre 6,52 s.m e 15,72 s.m.
Mínimo e Máximo: O menor salário entre os 36 funcionários é 4 s.m e o maior é 23,3 s.m.
Soma: A empresa gasta 400,4 s.m no pagamento de seus 36 funcionários, ou seja, 400,4 s.m é a folha de
pagamentos da empresa.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 28
4. SEPARATRIZES:
Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um
conjunto de dados, pois são afetados, de forma exagerada por valores extremos, ou seja, são medidas
sensíveis. Então analisar outras medidas de posição, com as separatrizes, se faz necessário, assim segue as
medidas:
Quartis: Dividem os valores ordenados (em ordem crescente ou decrescente) da variável em quatro
partes iguais através de três quartis (Q1, Q2 e Q3), ou seja, (25% abaixo, 50% abaixo e acima, 25%
acima).
Exemplo 5: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas,
calcule os quartis:
2; 5; 6; 9; 10; 13; 15
OBS: O conjunto de dados é ÍMPAR (n = 7), assim:
2 5 6 9 10 13 13
Q1 = P25
Md = Q2 = P50 = D5
Q3 = P75
Solução:
valorn
Q
24
17
4
11 = 5 anos
25% das pessoas tem idade abaixo de 5 anos e 75% acima.
valorn
MdQ
42
17
2
12 = 9 anos
50% pessoas tem idade abaixo de 50% anos e 3 acima.
valorn
Q
5,54
121
4
133 = Pega-se o 6º valor = 13 anos
75% tem idade abaixo de 13 anos e 25% acima.
Exemplo 6: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas,
calcule e interprete os quartis:
1; 1; 2; 3; 5; 5; 6; 7; 9; 9
OBS: O conjunto de dados é PAR (n = 10), mas ao dividir os dados ao meio sobram 5 valores para um
lado e 5 para o outro, ou seja, ao dividir fica uma quantidade ímpar para um lado e para o outro, assim:
Quantidade Ímpar de Valores
Quantidade Ímpar de Valores
1 1 2 3 5
5 6 7 9 9
Q1 = P25
(5 + 5)/2 = 5
Q3 = P75
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 29
52
55
2
65
2
12
10
2
10
2
122
2
nn
MdQ
Quartis: Ao dividir o conjunto de dados em duas partes iguais, ficam 5 valores para um lado e 5 valores
para o outro, ou seja, uma quantidade ímpar para um lado e uma quantidade ímpar para o outro, assim,
para calcular o quartil 1 e quartil 3, deve-se utilizar a fórmula para o caso ímpar e não par, assim:
234
110
4
11
valorn
Q
784
110*3
4
133
valorn
Q
Exemplo 7: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas,
calcule e interprete os quartis:
1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13
OBS: O conjunto de dados é PAR (n = 12). Ao dividir os dados ao meio ficam 6 valores para um lado e 6
para o outro, ou seja, fica uma quantidade par para um lado e uma quantidade par para o outro, assim, as
fórmulas devem ser, nesse caso as pares, assim:
Quantidade Par de Valores
Quantidade Par de Valores
1 1 2 3 5 5
6 7 9 9 10 13
Q1 = (2+3)/2 = 2,5
Q2 = (5 + 6)/2 = 5,5
Q3 = (9+9)/2 = 9
5,52
65
2
76
2
12
12
2
12
2
122
2
nn
MdQ
Quartis: Ao dividir o conjunto de dados em duas partes iguais, ficam 6 valores para um lado e 6 valores
para o outro, ou seja, uma quantidade par para um lado e uma quantidade par para o outro, assim, para
calcular o quartil 1 e quartil 3, deve-se utilizar a fórmula para o caso par, assim:
5,22
32
2
43
2
14
12
4
12
2
144
1
nn
Q anos
92
99
2
109
2
14
36
4
36
2
14
3
4
3
3
nn
Q anos
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 30
Decil: Divide o conjunto de dados em 10 partes iguais:
D1 = 10%, D2 = 20%,.., D10 = 100%
Decil 1 = Representa os 10% menores e os 90% maiores
Percentil: Divide a série em 100 partes iguais:
P1 = 1%, P2 = 2%,.., P100 = 100%
Assim:
Md = Q2 = D5 = P50
Q1 = P25
Q3 = P75
5. BOX-PLOT
Em 1977, John Tukey publicou uma proposta que posteriormente foi reconhecida como sendo
um eficiente método para mostrar cinco números que sumarizam qualquer conjunto de dados. O gráfico
proposto é chamado de Box-Plot (também conhecido como Box and whisker plot).
O Box-Plot é um tipo de representação gráfica conveniente para revelar tendências centrais,
dispersão, distribuição dos dados e a presença de outliers (dados discrepantes). A construção de um Box-
plot exige o “resumo dos cinco números”, ou seja, o menor valor do conjunto de dados, o primeiro
quartil, o segundo quartil, o terceiro quartil e o maior valor do conjunto de dados.
5.1. Interpretação do Box-Plot: O gráfico de Box-plot interpreta-se da seguinte forma:
• A caixa (Box) propriamente contém a metade 50% dos dados (Q2 = Mediana). O limite superior da caixa
indica o percentil de 75% dos dados (Q3) e o limite inferior da caixa indica o percentil de 25% (Q1). A
distância entre esses dois quantis (Q3 – Q1) é conhecida como amplitude interquartílica.
• A linha na caixa indica o valor de mediana (Q2) dos dados.
• Se a linha mediana dentro da caixa não é equidistante (ter a mesma distância) dos extremos, diz-se então
que os dados são assimétricos (à direita ou à esquerda).
• Os extremos do gráfico indicam o valor mínimo e máximo, a menos que valores outliers estejam
presentes.
• Os pontos fora do gráfico são então outliers ou suspeitos de serem outliers.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 31
5.2. Vantagens do Box-plot:
• Mostra graficamente a posição central dos dados (mediana) e a tendência;
• Mostra a forma de simetria ou assimetria dos dados;
• Ao contrário de muitas outras formas de mostrar os dados, o Box-plot mostra os outliers.
• Utilizando o Box-plot para cada variável categórica de lado a lado no mesmo gráfico, pode-se
facilmente comparar os dados.
5.3. Desvantagem do Box-Plot:
Em alguns casos a quantidade de outliers pelo intervalo definido pelo desvio padrão e pelo Box-
Plot se diferem, pois pelo intervalo definido pelo desvio padrão os dados não são modificados em
momento algum, já com o Box-Plot o cálculo do limite inferior junto com o intervalo interquartílico não
mostra bem a realidade dos dados, mas este tipo de gráfico é bastante utilizado para verificar o formato da
curva dos dados.
Para contornar esta situção a idéia é utilizar os Box-Plot para verificar o formato da curva e o
intervalo definido pelo desvio padrão para encontrar os dados discrepantes. Neste caso, o uso do Box-Plot
deve ser em último caso para evitar interpretações erradas.
Segue um exemplo prático para ilustrar isso:
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 32
Através desse gráfico, podemos comparar as distribuições de idade entre cada profissão, quanto a
posição e dispersão. Temos por exemplo, que advogados têm a menor média de idade de escolha da
profissão. Médicos têm a maior idade, seguidos pelos dentistas. Temos, entretanto, que a variação de
idade para os dentistas é muito maior do que para os médicos e advogados. Provavelmente detectaríamos
diferença significativa entre as médias de idade de advogados e médicos, e advogados e dentistas, mas
devido a grande variação de idades para dentistas, talvez não se detecte diferença entre médicos e
dentistas. Temos também a ocorrência de uma observação discrepante (outlier) para idade de dentistas:
enquanto 50% dos dentistas estão entre aproximadamente 29 e 34 anos, houve um dentista com idade
próxima de 20.
Além disso, enquanto a distribuição de idade para advogados parece razoavelmente simétrica em
torno da mediana, para médicos e dentistas parece haver uma concentração maior (moda) para idades
maiores, indicando provavelmente uma distribuição assimétrica à direita, isso quer dizer que a moda ≤
mediana ≤ média. Para visualizar melhor é só virar cada gráfico para o lado direito e veremos que o lado
maior está do lado direito (assimetria à direita).
Portanto, sugere-se o uso do “resumo dos cinco números” de um conjunto de dados para a
construção do Box-Plot:
1 – Valor mínimo (E1): Menor valor do conjunto de dados. Em algumas vezes pode ser considerado um
outlier (dado discrepante);
2 – Primeiro Quartil (Q1): É um valor que deixa um quarto dos valores abaixo e três quartos acima dele
(25% abaixo e 75% acima);
3 – Segundo Quartil ou Mediana (Q2 ou Md): É um valor que divide na metade o conjunto de dados (50%
abaixo e 50% acima);
4 – Terceiro Quartil (Q3): É um valor que deixa três quartos dos dados abaixo e um quarto acima dele
(75% abaixo e 25% acima);
5 – Valor máximo (En): Maior extremo do conjunto de dados.
Exercício 8: Segue abaixo as notas de 26 alunos de uma disciplina de Bioestatística, construa um gráfico
Box-Plot:
2,8 3,3 4,5 5,0 5,3 6,0 6,0 7,0 7,0 7,3
7,3 7,5 7,8 7,8 8,3 8,5 8,8 9,0 9,0 9,0
9,0 9,3 9,6 9,8 10,0 10,0
Desenhe o Box-Plot e interprete-o:
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 33
Nota de Aula 4 – Correlação e Regressão com uso
do Microsoft Excel
1. INTRODUÇÃO:
Diversas decisões tomadas no dia-a-dia das empresas envolvem informações do tipo: volume de
vendas previsto para subsidiar a área de produção, demanda estimada de produtos que indique se e quais
equipamentos devem ser comprados, ou qual o lucro projetado para justificar determinados investimentos
(CORRAR, 2009).
Ainda de acordo o autor, dado um ambiente organizacional em contínua transformação, o que se
procura é reduzir incertezas. Desta forma, os gestores demandam informações que os auxiliem a escolher,
hoje, as que parecem ser as melhores alternativas sobre eventos que ocorrerão no futuro. Assim, permitir
a antecipação de cenários futuros é a proposta dos modelos quantitativos de previsão, pois estes envolvem
dados históricos e podem ser de dois tipos: por séries causais ou séries temporais.
Corrar (2009) defende que os modelos causais estudam os fatores que tem influencia sobre a
variável a ser estimada, e a análise de regressão é um exemplo desse tipo de modelo. Já os modelos de
séries temporais, por sua vez, envolvem projeções baseadas, exclusivamente, nas observações do passado
da variável que se deseja estudar.
Assim, esta nota de aula trata de modelos de séries temporais e de sua utilidade para as diversas
áreas do conhecimento, mas para isso faz-se necessário relembrar os assuntos de Correlação de Pearson e
Regressão Linear Simples.
2. CORRELAÇÃO LINEAR:
O estudo de correlação mostra uma forma de medir quanto e de que maneira se relacionam duas
variáveis quantitativas por meio do qual se pode analisar a relação existente das variáveis em estudo, ou
seja, qual alteração deve esperar em uma das variáveis, como consequência de alterações sofridas pela
outra variável, ou seja, uma relação de causa de efeito.
Para entendimento dessa relação entre duas variáveis, segue alguns exemplos práticos: o frio está
para o setor farmacêutico, assim como o dia das mães está para o comércio, pois as vendas de
medicamentos não controlados, como analgésicos, antigripais e vitaminas, disparam. Outro exemplo é o
faturamento das empresas de energia elétrica é diretamente influenciada pela temperatura, especialmente
no verão, onde a demanda por energia aumenta, pelo uso de ar condicionado e ventiladores, fazendo com
que as empresas produtoras de energia aumentem seus lucros. De forma similar, par ao consumo de água,
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 34
desta forma em Fortaleza, por exemplo, nos meses que ocorre o verão (dezembro até meados de março),
o consumo de água nas residências aumenta de forma significativa.
A priori essa relação pode ser verificada com auxílio de um gráfico de dispersão bidimensional,
que será definido como eixo x, a variável causa e y, a variável efeito, como segue:
2.1. Interpretação subjetiva do gráfico de dispersão:
x
y
Correlação Positiva entre x e y
x
y
Forte correlação Positiva entre x e y
x
y
Correlação Positiva perfeita entre x e y
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 35
Assim, a importância de tal determinação decorre do fato de que a presença de uma correlação
pode conduzir-nos a um método para estimar a variável y (efeito) utilizando a variável x (causa).
2.2. Outliers:
Os conhecidos como outliers, são os pontos discrepantes, ou as observações extremas que não
são condizentes com o restante da massa de dados, conforme o Gráfico abaixo. As causas mais prováveis
da ocorrência de outliers pode ser o registro incorreto dos dados, algum defeito no instrumento de
medição utilizado, dentre outros. Caso isso ocorra, o outlier deve ser se possível, corrigido, em extremo
caso eliminado. Desta forma, deve-se dar a devida atenção à causa de tais anomalias, pois esses dados
discrepantes podem ser úteis para descobrir a causa dessa ocorrência.
Como as conclusões tiradas de gráficos de dispersão tendem a ser subjetivas, necessita-se de
métodos mais precisos e objetivos. Então se utiliza o coeficiente de correlação linear de Pearson para
detectar padrões lineares.
2.3. Coeficiente de Correlação de Pearson ( xyR ):
O Coeficiente de Correlação de Pearson mede o grau de associação entre as duas variáveis
analisadas, podendo ser fraca ou forte. Para isso, a notação matemática que permite verificar essa
associação é a que segue:
n
YY
n
XX
n
YXXY
Rxy2
2
2
2
Assim, o valor de Rxy deve pertencer ao intervalo -1 Rxy 1, e a sua interpretação é a seguinte:
x
y
Outlier
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 36
0,00 Rxy 0,69 = dependência fraca +
0,70 Rxy 1,00 = dependência forte +
-0,69 Rxy 0,00 = dependência fraca -
-0,70 Rxy -1,00 = dependência forte -
Contudo, em geral, uma correlação forte não é sinônima de uma relação causa-efeito entre as
amostras ou variáveis. Há situações em que um coeficiente de correlação próximo de um ou de um menos
um não significa que a maioria dos pares de valores esteja contida em uma reta (será visto em regressão
linear). Desta forma, o simples conhecimento do coeficiente de correlação não é suficiente devido a
anomalias na dispersão dos dados, por isso é recomendada a construção do gráfico de dispersão das
amostras para melhor compreender o resultado, pois em alguns casos, a relação de causa e efeito pode ser
provocada por um ou mais fatores ocultos, uma variável não considerada na análise.
Por exemplo, suponha que o número de vendas diárias de um jornal e a produção diária de ovos
tenha uma forte correlação positiva. Não se pode afirmar que o aumento do número de jornais vendidos
resulte no aumento da produção de ovos. Para compreender a forte correlação positiva, devem-se
procurar fatores ocultos, por exemplo, o aumento de riqueza da população que resulta em aumento de
demanda dos dois produtos ao mesmo tempo, jornais e ovos.
Conhecer a relação significativa entre as variáveis é de extrema importância para que assim o
investigador possa realizar suas previsões com mais segurança, assim, faz-se necessário conhecer o que é
regressão linear.
3. REGRESSÃO LINEAR SIMPLES:
Como visto anteriormente, o coeficiente de correlação (Rxy) apenas não mede com segurança a
relação causa-efeito entre duas variáveis, apesar de essa relação poder estar presente. Por exemplo, uma
correlação fortemente positiva entre as variáveis x e y não autoriza afirmar que variações da variável X
provocam variações na Y, ou vice-versa. Entretanto, em uma regressão linear, a relação causa e efeito
deve ser definida no início da análise.
Em muitas pesquisas estatísticas, o objetivo principal é estabelecer relações que possibilitem
predizer uma ou mais variáveis em termos de outras. Assim, é que se fazem estudos para predizer os
seguintes exemplos:
Vendas futuras de um produto em função do seu preço;
Diretamente proporcional: x y
Inversamente proporcional: x y
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 37
Perda de peso de uma pessoa em decorrência do número de semanas que se submete a uma dieta de
800 calorias-dia;
Despesa de uma família com médico e com remédio em função de sua renda;
Consumo per capita de certos alimentos em função do seu valor nutritivo e do gasto com propaganda
na TV;
Taxa de juros em função da inflação;
Salário em função da escolaridade do trabalhador.
Assim, no estudo de regressão linear simples, utilizam-se duas amostras (ou duas variáveis) e se
objetiva em analisar a reta que melhor explica a relação entre essas duas variáveis, tendo previamente
definido a variável independente (ou resposta ou causa) e a variável dependente (ou preditora ou efeito).
A origem do termo “regressão” remonta a Francis Galton (1822 a 1911), que por volta de 1855,
investigava relações entre características antropométricas de sucessivas gerações. Uma de suas
constatações era de que “cada peculiaridade de um homem é transmitida aos seus descendentes, mas, em
média, numa intensidade menor”. Por exemplo: embora pais com baixa estatura tendem a ter filhos
também com baixa estatura, estes têm altura média do que a altura média de seus pais. O mesmo ocorre,
mas em direção contrária, com pais com estatura alta. A esse fenômeno de a altura dos pais mover-se em
direção à altura média de todos os homens ele chamou de regressão.
O termo regressão remete ao passado, ou seja, para se fazer previsões estatísticas é necessário
conhecer o passado (ou histórico) das variáveis de causa e efeito da empresa. Caso a empresa não possua
estes dados e quiser fazer previsões, a saída é buscar dados do seu concorrente.
3.1. Equação da reta:
Uma vez que o comportamento entre as variáveis tende para uma relação linear, o próximo passo
consiste em buscar determinar a respectiva equação de regressão linear simples.
Toda reta pode ser representada pela seguinte expressão matemática y = a + bx, onde x e y são as
variáveis e a e b, seus respectivos coeficientes. Sendo:
a = Coeficiente linear ou ponto que intercepta o eixo vertical y, ou seja, valor de y para x = 0
b = Coeficiente angular ou Declividade da reta, ou seja, a variação de y por unidade de variação de x.
O gráfico da equação y = a + bx é uma linha reta. Na prática, os valores de a e b costumam ser
estimados. Para obter os valores dos coeficientes a e b, recorremos ao Cálculo Diferencial. Sendo:
²²
²
xxn
xyxxya
n
xx
n
yxxy
b²
²
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 38
3.2. Coeficiente de determinação (R²):
Indica a proporção da variação total da variável dependente que é explicada pela variação da
variável independente, ou seja, mede a confiabilidade da previsão a ser realizada. Assim, quanto maior
for o R², melhor será o poder de explicação da reta de regressão.
A diferença do coeficiente de correlação (Rxy) para o coeficiente de determinação (R²), é que o
primeiro mede a força da relação linear entre as variáveis, enquanto que o R² mede a explicação da reta de
regressão.
Dessa maneira, para apreciar o ajuste de uma reta, é melhor utilizar o coeficiente de
determinação que mede o sucesso da regressão em explicar y, ou seja, o R² verifica quantos por centos de
y pode ser explicado por x, o restante (%) são os sem explicação.
4. SÉRIES TEMPORAIS:
Segundo Corrar (2009), uma série temporal é um conjunto de observações sequenciais de
determinada variável, expressas numericamente, obtidas em períodos regulares de tempo. Assim, a
análise de séries temporais baseia-se na premissa segundo a qual os fatores que influenciaram o
comportamento dos dados no passado continuam influenciando seus movimentos futuros.
Desta forma, os dados coletados de uma série temporal podem sofrer a influência de diversos
fatores, como: alterações macroeconômicas, mudanças no padrão tecnológico vigente, variações nas
condições de natureza, ou mesmo podem ser afetados por fenômenos imprevisíveis, e por consequência
disso, os dados podem sofrer alguma tendência (sazonalidade, por exemplo), que consiste em mudanças
nos dados, fazendo-os serem no formato linear (diretamente ou inversamente proporcional), ou no
formato de uma curva, como por exemplo, a exponencial, polinomial, potencial, dentre outras (Quadro 1).
Tipo de Função Equação Original Equação
Linearizada
Variável
X
Variável
Y
Linear y = a + b.x y = a + b.x x y
Exponencial y = a.ebx
ln y = ln a + b.x x ln y
Potência y = a.xb ln y = ln a + b.ln x ln x ln y
Logarítmica y = a + b.ln x y = a + b.ln x ln x y Quadro 1: Principais transformações lineares
Fonte: Adaptado de Corrar (2009)
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 39
Exercício 1: O objetivo do diretor de vendas do Grupo Pão de Açúcar é analisar a relação entre o
investimento realizado em propaganda e as vendas (ambas em milhões de Reais) de uma loja da rede no
Município de Fortaleza, para realizar projeções de vendas baseados em futuros investimentos em
propaganda nos próximos anos. O Quadro a seguir registra o histórico de 10 anos com os valores de
propaganda e vendas em milhões de reais:
Ano Propaganda
(R$ milhões)
Vendas
(R$ milhões)
2005 30 430
2006 21 335
2007 35 520
2008 42 490
2009 37 470
2010 20 210
2011 8 195
2012 17 270
2013 35 400
2014 25 480
Assim, seguem os passos no Microsoft Excel:
CORRELAÇÃO:
1º Passo:
Abrir o arquivo que encontra o banco de dados no Excel ou digitar os valores da tabela acima;
Identificar quais são as variáveis quantitativas e qual delas será x (causa) e y (Efeito);
2º Passo: Construção do gráfico de dispersão entre x e y:
Selecionar as variáveis Propaganda (x) e Vendas (y) Inserir gráfico escolher gráfico de
dispersão xy (ou Ponto) Avançar Clicar em “OK”.
Formatação do gráfico:
Apagar a legenda
Título: Clique com botão direto do mouse dentro do gráfico: Opções do gráfico Em Título: digitar
“Relação entre Propaganda (R$ milhões) versus Vendas (R$ milhões) de uma determinada empresa x”.
Formatar os eixos “x” e “y”, sendo Propaganda (R$ milhões) e Vendas (R$ milhões),
respectivamente;
Letra Times New Roman, tamanho 11;
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 40
Verificar se os dados do gráfico seguem uma tendência linear. Se sim, calcula-se a correlação linear
entre as variáveis x e y;
2º Passo: Fazer estudo de correlação linear entre x e y:
Procedimento 1: Com a ferramenta FUNÇÃO:
Posicione o cursor em um local abaixo do banco de dados para visualizar o resultado;
Clicar em Inserir função Em selecionar uma categoria, escolha “Estatística” Selecione uma
função: CORREL OK Em matriz 1: selecione todos os dados da variável x, em matriz 2: selecione
todos os dados da variável y, inclusive com o título. Caso esqueça de selecionar o título, o programa
calcula a correlação mesmo assim.
Com isso sairá o resultado da correlação entre x e y = 0,8594 = 85,94%
Procedimento 2: Com a FERRAMENTA ANÁLISE DE DADOS:
Clicar em Inserir
Ferramentas Análise de dados Clicar na função Correlação OK Em intervalo de entrada,
selecionar tudo que compõe o banco de dados, inclusive o título Clicar também em “Rótulos na
primeira linha”, pois caso não clique, o programa não conseguirá ler o banco de dados, pois você está
informando a ele que a primeira linha do banco de dados são as variáveis Agrupados por coluna
Clicar em Nova saída OK. O resultado será:
PARA A REGRESSÃO LINEAR SIMPLES:
Procedimento 1: Através da ferramenta FUNÇÃO:
Para encontrar o valor de “a” (o intercepto), que é representado pela fórmula:
CUIDADO para definir qual variável é x (independente) e qual é y (dependente), pois contrário o
resultado de a e b será errado.
Clique em Inserir função INTERCEPÇÃO Selecione os dados da variável y, inclusive o título,
e os dados da variável y. Resultará: a = 117,07
Propaganda (R$ milhões) Vendas (R$ milhões)
Propaganda (R$ milhões) 1
Vendas (R$ milhões) 0,859366125 1
²²
²
xxn
xyxxya
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 41
Para encontrar o valor de “b” (o coeficiente angular, ou seja a inclinação da reta), que é representado
pela fórmula:
Clique em Inserir função INCLINAÇÃO Selecione os dados da variável y, inclusive o título, e
os dados da variável y. Resultará: b = 9,74
Portanto a equação de previsão será: y = a + bx, ou seja, y = 117,07 + 9,74x, que representa:
Vendas = 117,07 + 9,74. Propaganda
Procedimento 2: Através da ferramenta ANÁLISE DE DADOS:
Clique em Ferramentas Análise de dados Regressão OK Selecione separadamente a
variável y (vendas) e a variável x (propaganda), inclusive os títulos Clique em rótulos Nova
planilha. O que iremos utilizar segue abaixo:
Estatística de regressão
R múltiplo 0,859366125
R-Quadrado 0,738510137
R-quadrado ajustado 0,705823904
Erro padrão 65,17342989
Observações 10
Onde o Coeficiente de determinação (R²) é igual a 0,7385, ou seja, 73,85% dos dados estão sendo
explicados pela equação y = 117,07 + 9,74x, e 0,2614 = 26,14% não estão sendo explicados pela reta
encontrada.
Coeficientes
Interseção 117,0701581
Propaganda (R$ milhões) 9,738142292
O quadro acima mostra os coeficientes a e b da reta de regressão.
Procedimento 3: Através do GRÁFICO DE DISPERSÃO:
Clique em algum dos pontos do gráfico com o botão direito: Clicar em Adicionar linha de tendência
Clicar em Linear Ir em Opções: Clicar em exibir equação do gráfico e Exibir valor de R² no
gráfico, e sairá a equação y = 117,07 + 9,7381x e R² = 0,7385. Assim:
n
xx
n
yxxy
b²
²
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 42
Relação entre Propaganda (R$ milhões) versus Vendas
(R$ milhões) de uma determinada empresa X
y = 9,7381x + 117,07
R2 = 0,7385
0
100
200
300
400
500
600
0 10 20 30 40 50
Propaganda (R$ milhões)
Ven
das (
R$
mil
hõ
es)
Fazendo previsões matemáticas com uso da equação de regressão linear:
Para investimento em propaganda no valore de 20 milhões, 40 milhões e 50 milhões de reais, assim:
Assim, a projeção para cada um dos investimentos será de:
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 43
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 44
Nota de Aula 5 – Medidas Descritivas para dados
agrupados
1. INTRODUÇÃO:
Quando o conjunto de dados consiste de um grande número de dados, indica-se alocá-los numa
tabela de distribuição de frequência. Distribuição de frequência é uma série de dados brutos agrupados
em uma tabela de acordo com o número de elementos distintos da série. Esta tabela resume as classes de
valores, juntamente com as suas respectivas contagens (ou frequências), servindo de base para as
representações gráficas.
A organização dos dados agrupados traz vantagens na visualização global, apesar de eliminar
alguns detalhes, pois há uma pequena perda de informação.
2. PASSOS PARA CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS POR
INTERVALO:
1º. Passo: Encontrar a amplitude total dos dados (Diferença entre o maior valor e o menor do conjunto de
dados):
At = V máx – V min
2º. Passo: Determinar o número de classes (k):
k = 5, se n 25
k = n , se n > 25 ou de acordo a Regra de Sturges: k = 1+3,22 log (n)
OBS1: Para n 50, ambos os métodos de determinação de k são iguais, acima disso, é aconselhável
utilizar a Regra de Sturges, pois os dados ficam mais concentrados.
OBS2: Arredondar para mais o número de k independente do valor ocorrido.
Podemos notar que os valores encontrados não são nem de perto parecidos quando o valor de n é
grande, por isso deve ser registrado que na organização e construção de uma tabela de distribuição de
frequências, o que deve prevalecer é o bom senso e não só e simplesmente o resultado encontrado, usando
os modelos matemáticos disposto no 2º passo.
A Regra de Sturges tende a apontar um número de classes com mais eficiência que a da raiz
quadrada.
Uma regra de bolso diz que as tabelas de distribuição de frequências devem ter de 5 a 20 classes,
pois abaixo de 5 está se perdendo informação nas classes e acima de 30 o nível de detalhamento torna-se
exagerado e pouco eficaz.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 45
n
Número de Classes (k)
Pela: k = n
Pela: k = 1+3,22 log (n)
30 6 6
35 6 6
40 7 7
50 8 7
60 8 7
70 9 7
80 9 8
90 10 8
100 10 8
110 11 8 Quadro 1: Número de classes de acordo do tamanho de “n”
3º. Passo: Amplitude do intervalo de classe (h):
k
Ah t
4º. Passo: Identificar os limites de classe: São os extremos de cada classe.
li = limite inferior, i = 1,...,k
ls = limite superior, s = 1,...,k
3. TIPOS DE DISTRIBUIÇÃO DE FREQUÊNCIAS:
Cada distribuição de frequência dependerá do tipo de variável que se está analisando:
a) Variável quantitativa discreta: É aquela que só pode assumir valores obtidos por contagem. Nesse
caso usa-se uma distribuição de frequência por pontos, pois os dados serão tratados de maneira
individualizada.
b) Variável quantitativa contínua: É aquela que pode assumir valores quaisquer num intervalo de
observação, representam mensurações. Nesse caso usa-se uma distribuição de frequências com classes,
pois os dados serão agrupados para facilitar análises futuras.
4. TIPOS DE FREQUÊNCIAS:
4.1. Frequência simples ou absoluta (fi): É o número de observações correspondente à classe i (i =
1,...,k), ou seja,
K
i
i nf1
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 46
4.2. Frequência relativa fi (%): A frequência relativa representa a proporção de observações de uma
classe em relação ao número total de observações. Trata-se, portanto, de um número relativo. Para
calcular a frequência relativa basta dividir a frequência absoluta do valor individual (ou da classe) pelo
numero total de observações, ou seja, então:
100(%) xn
ff i
i
, onde
n = Tamanho da amostra
K
i
if1
1(%) ou 100%
4.3. Frequência acumulada absoluta “abaixo de” (Fi): Representa o número de observações
existentes abaixo do limite superior de cada classe. A expressão “abaixo de” refere-se ao fato de que as
frequências a serem acumuladas correspondem aos valores menores ou anteriores à classe cuja frequência
acumulada se deseja obter, incluindo no cálculo a frequência da classe. Toda vez que se procura saber
quantas observações existem até um determinado valor individual (ou uma determinada classe), recorre-
se à frequência acumulada “abaixo de”.
4.4. Frequência acumulada absoluta “acima de” (Fi): Representa o número de observações existentes
acima do limite inferior de cada classe. Para se obter a frequência acumulada “acima de” basta somar a
frequência das classes posteriores.
4.5. Frequência acumulada relativa “abaixo de” ou “acima de” (Fi(%)): É a frequência acumulada do
valor ou da classe, dividida pelo tamanho total da amostra (n).
100(%)
n
FF i
i 100(%)
n
FF i
i
Exercício 1: Segue abaixo o peso (kg) de 30 adolescentes de um consultório de nutrição de um famoso
nutricionista de Fortaleza. Os dados foram obtidos dos prontuários destes pacientes que foram atendidos
no mês passado:
42 46 47 48 49 49 50 51 51 51
51 52 54 54 54 55 55 55 56 56
57 57 57 57 58 61 61 64 65 68
a) Construa uma distribuição de frequências com classes para os dados acima (Utilize duas casas
decimais após a vírgula)
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 47
Responda:
b) Quantos pacientes tem o peso entre 50,68 e 55,02kg?
Solução:
c) Quantos pacientes tem o peso acima de 50,68kg?
Solução:
d) Quantos pacientes tem o peso abaixo de 63,7kg?
Solução:
e) Quantos pacientes tem o peso (%) 63,7 e 68,04kg?
Solução:
f) Quantos pacientes tem o peso acima de 42kg?
Solução:
5. REPRESENTAÇÃO GRÁFICA DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS:
5.1. Histograma: É formado por um conjunto de retângulos justapostos que têm as bases sobre um eixo
horizontal, com centro no ponto médio. As bases coincidem com as amplitudes das classes. Se todos os
intervalos tiverem a mesma amplitude, as alturas serão proporcionais às frequências das classes,
tomando-se então as alturas numericamente iguais a essas frequências, ou seja, largura do retângulo é
igual à amplitude da classe (h) e altura do retângulo é igual à sua frequência simples (fi).
O objetivo de utilizar um histograma é tentar perceber algo pelo formato da distribuição da
população de dados da qual a amostra foi obtida.
Figura 1: Modelo de um histograma
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 48
5.2. Polígono* de frequências: Consideramos um gráfico de linha que une os pontos médios das bases
superiores dos retângulos do histograma (pontos médios das classes).
Figura 2: Modelo de um Polígono de frequência
5.3. Medidas de Assimetria:
Ao montar uma distribuição de frequências, pode-se construir um gráfico que a represente, ou
seja, um histograma. Através do histograma é possível verificar se os dados tem um comportamento de
simetria, em que a média é igual a moda e que ambas são iguais a mediana. Caso contrário, a existência
da simetria não ocorre mais, ou seja, a distribuição dos dados é considerada assimétrica, podendo ser
positiva ou assimétrica à direita (Moda ≤ Mediana ≤ Média), ou negativa ou assimétrica à esquerda
(Média ≤ Mediana ≤ Moda).
O que determina a assimetria é a posição da moda?, bom, se a moda for no início isso mostra que
a assimetria ficará do lado direito, se a moda ficar no final, isso mostra que a assimetria será do lado
esquerdo. Portanto, se a moda for menor que todas as outras medidas, ela estará no início (assimétrica à
direita), e se ela for maior que todas as medidas serão assimétricas à esquerda.
A assimetria, como o próprio nome insinua, significa desvio ou afastamento da simetria, ou seja,
em outras palavras, assimetria é o grau de deformação de uma curva de frequências.
Veja a Figura 3, que representa uma distribuição de frequências simétrica, e as Figuras 4 e 5 que
representam uma distribuição de frequências assimétricas.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 49
Figura 3 – Histograma simétrico
Figura 4 – Histograma assimétrico à direita
Figura 5 – Histograma assimétrico à esquerda
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 50
5.4. Medidas de Curtose (ou achatamento):
A curtose ou excesso indica até que ponto a curva de frequências de uma distribuição se
apresenta mais afilada ou mais achatada do que uma curva-padrão, denominada curva normal ou
distribuição Normal (ou de Gauss – em homenagem ao matemático alemão Carl F. Gauss) é a
distribuição de probabilidade que mais frequentemente se utiliza para descrever fenômenos que são
traduzidos por variáveis aleatórias contínuas.
Teremos, portanto, no tocante às situações de Curtose de um conjunto, as seguintes
possibilidades:
Figura 7 – Achatamento das curvas com relação à Distribuição Normal de Probabilidade
- Mesocúrtica: ou de curtose média. Será essa a nossa Curva Normal. “Meso” lembra meio. Esta curva
está no meio termo: nem muito achatada, nem muito afilada;
- Platicúrtica: é a curva mais achatada, ou seja, os dados estão muito dispersos da média. Seu desenho
lembra o de um prato emborcado. Então “prato” lembra “plati” e “plati” lembra “platicúrtica”;
- Leptocúrtica: é a curva mais afilada, ou seja, os dados estão muito concentrados no meio (na média),
sempre estará acima da Curva Normal.
OBS: Se a distribuição é assimétrica não há razões para verificar o seu grau de achatamento, ou seja, não
existe curtose para ela.
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 51
5.5. Gráfico da distribuição de frequência acumulada “abaixo de” ou Ogiva de Galton**: É um
gráfico representativo da distribuição acumulada de frequências (%). É utilizado para encontrar uma
parcela da amostra até determinado valor.
Figura 3: Modelo de uma Ogiva de Galton
Ainda, de acordo o Exercício 1:
g) Construa um histograma, trace o polígono de frequências e verifique se os dados são simétricos ou
assimétricos (direita ou esquerda):
h) Construa uma Ogiva de Galton e informe em qual classe se encontram as 10% maiores notas e as 10%
menores.
6. MEDIDAS DE TENDÊNCIA CENTRAL PARA DADOS AGRUPADOS EM CLASSES:
6.1. Média Ponderada )(x : Quando os dados estão resumidos em uma tabela de frequência, podemos
aproximar a média substituindo os limites da classe pelos pontos médios delas, e supor que todos os
elementos da classe se concentram no respectivo ponto médio.
No exercício 2, por exemplo, a 2ª classe de 4,0|---5,2 contém dois valores que se situam em
algum ponto entre os limites da classe, mas não sabemos os valores específicos desses dois números. A
fim de possibilitar os cálculos, supomos que todos os dois valores se concentram no ponto médio 4,6, ou
seja, supomos que a média deles é 4,6.
n
fX
x
k
i
ii 1
Onde:
n = número de observações ou tamanho da amostra
Xi = Ponto médio da i-ésima classe***
fi = frequência simples ou absoluta da i-ésima classe (pesos de cada classe)
k = número de classes
*** Ponto médio (Xi) = 2
si ll , onde li = limite inferior e ls = limite superior
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 52
6.2. Moda (Mo): Existem diferentes formas de se calcular a Moda de uma Distribuição de Frequências.
Para isso existem dois métodos, cada um dos quais traduzidos por uma fórmula.
Aprenderemos a determinar a Moda da Distribuição de Frequências pelo Método de Czuber e
pelo Método de King. Teremos então que conhecer ambas as fórmulas, saber aplicá-las e, sobretudo,
saber quando usar uma ou outra.
A regra é a seguinte: se a questão não especificar qual das fórmulas a ser empregada, pedindo
apenas que se calcule a Moda, usaremos a fórmula de Czuber. Consequentemente, só empregaremos a
fórmula de King quando assim for solicitado expressamente pelo enunciado.
- Passo Preliminar: Encontrar a Classe Modal
A determinação da Moda de uma Distribuição requer que se proceda a um passo preliminar, que
consiste em identificar a classe modal daquele conjunto. A classe modal será, simplesmente, aquela que
apresentar maior frequência absoluta simples, ou seja, maior fi.
- Moda pelo Método de Czuber:
Onde:
limo= limite inferior da classe modal
OBS4: Delta () normalmente significa “diferença”.
Δ1 = Diferença entre a frequência absoluta da classe modal e da classe imediatamente anterior: Δ1 = fmo -
fant
Δ2 = Diferença entre a frequência absoluta da classe modal e da classe imediatamente posterior:
Δ2 = fmo – fpost
h = comprimento do intervalo da classe modal
6.3. Mediana (Md): Quando se trabalha com uma distribuição de frequências, deve-se inicialmente,
identificar a classe mediana através do elemento mediano (EM), assim:
Para n = ímpar:
2
1
nEM
Para n = par: 2
nEM
Após isso, na frequência acumulada “abaixo de”, localizar a frequência imediatamente posterior
ao do elemento mediano. Em seguida, será identificada a classe mediana.
A mediana será dada pela seguinte fórmula:
hlMomoi
21
1
hf
FEMlMd
Md
Mdant
Md
i
i.inf
Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 53
Onde,
linf Md = limite inferior da classe mediana (classe
que contém a mediana)
Fi anter Md = Frequência acumulada anterior a da
classe mediana
fimd = frequência absoluta da classe
mediana
h = amplitude do intervalo da classe mediana
n = tamanho da amostra
6.4. Medidas de dispersão para dados agrupados em classes:
Variância Desvio Padrão Coeficiente de Variação
Exercício 2: Os dados abaixo são referentes aos pesos (kg) de 25 crianças que nasceram de forma
prematura. Um nutricionista deseja analisar as condições nutricionais destes recém-nascidos e fazer um
acompanhamento do peso deles nos próximos 3 meses. Complete as informações que faltam na
distribuição de frequências e responda os itens abaixo:
Pesos (kg) fi fi (%) Fi
(abaixo de)
Fi
(acima de) xi xifi
1,5|--- 1,7
|--- 4
|--- 11
|--- 5
|--- 2
TOTAL 25 100% - -
Fonte: Dados hipotéticos
a) Calcule o peso médio dos recém-nascidos analisados
b) Calcule o peso que mais se repete entre dos recém-nascidos analisados
c) Calcule o peso mediano dos recém-nascidos analisados
d) Na primeira classe, quantos recém-nascidos pesam exatamente 1,5 Kg?
e) Quantos recém-nascidos pesam abaixo de 2,3 Kg?
f) Quantos recém-nascidos pesam acima de 1,5 Kg?
g) Quantos recém-nascidos pesam acima de 2,3 Kg?
1
)(1
2
2
n
fXX
S
k
i
ii
1
)(1
2
n
fXX
S
k
i
ii
100
X
SCV
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 54
Nota de Aula 6 – Probabilidade
1. INTRODUÇÃO:
O passo decisivo para a fundamentação teórica da inferência estatística associa-se ao
desenvolvimento do cálculo das probabilidades.
Até recentemente, era comum creditar a decisão de qualquer evento aos deuses ou alguma outra
causa sobrenatural. Simplesmente não havia espaço para uma abordagem que atribuísse ao acaso, e tão
somente a ele, essas ocorrências. Entretanto, a Humanidade precisou de centenas de anos para se
acostumar com um mundo onde alguns eventos não tinham causa, ou eram determinados por causas tão
remotas que somente podiam ser razoavelmente representados por modelos não casuais. Tendo isso em
vista, fica mais fácil perceber porque a abordagem matemática do acaso, do azar e do risco só se iniciou
há pouco mais de 500 anos.
Dessa forma, a teoria das probabilidades nasceu das tentativas de quantificação dos riscos dos
seguros e da avaliação das chances de se ganhar em jogos de azar.
Assim, essa quantificação dos riscos ocorreu há mais de 5 mil anos entre os comerciantes
marítimos mesopotâmicos e fenícios, aplicados à perda de carga de navios, ou por naufrágio ou por
roubo. Assim, a prática foi continuada pelos gregos e romanos e acabou chegando ao mundo cristão
medieval através dos comerciantes marítimos italianos que se baseavam em estimavas empíricas das
probabilidades de acidentes para estipularem as taxas e prêmios correspondentes.
Logo após o término da Idade Média, o crescimento dos centros urbanos levou à popularização
de um novo tipo de seguro: o seguro de vida. Assim, com este tipo de seguro surgiram os primeiros
estudos matemáticos sobre o assunto, fazendo com que houvesse um enorme aumento nos negócios de
seguros marítimos (associados aos preciosos carregamentos trazidos das Américas e das Índias), mas os
seguradores continuaram a usar as milenares técnicas empíricas.
Posteriormente a isso, o primeiro trabalho prático na área dos seguros de
vida é devido a Halley em 1693 (Degrees of Mortality of Mankind).
Nesse trabalho, Halley mostrou como calcular o valor da anuidade do
seguro em termos da expectativa de vida da pessoa e da probabilidade de
que ela sobreviva por um ou mais anos, mas com Daniel Bernoulli
(1730), a matemática dos seguros atingiu um estado bastante maduro,
pois com ele retoma-se um clássico problema de, a partir de um número
dado de recém nascidos, calcular o número esperado de sobreviventes
após n anos.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 55
Além disso, ele também dá os primeiros passos em direção a novos tipos de seguros calculando,
por exemplo, a mortalidade causada pela varíola em pessoas de idade dada.
Concomitantemente, os jogos de azar, jogos nos quais a possibilidade de ganhar ou perder não dependem
da habilidade do jogador, mas sim exclusivamente do azar do apostador, são, provavelmente, tão velhos
quanto à humanidade.
Sendo assim, a origem da probabilidade se deu aos jogos de azar, através de questões postas pelo
matemático francês Pascal (1623-1662) com o célebre cavaleiro Méré, um famoso jogador profissional
que escreveu uma carta a Pascal, propondo-lhe resolver alguns problemas matemáticos que tinha
encontrado em suas lidas com jogos de azar.
Sendo assim, hoje há muitas aplicações que envolvem jogos de azar como as loterias, os cassinos
de jogos, as corridas de cavalos e os esportes organizados (futebol, voleibol, handebol), dentre outros, que
utilizam a teoria das probabilidades diariamente nas duas deliberações.
Independente de qual seja a aplicação em particular, a utilização das probabilidades indica que
existe um elemento de acaso, ou de incerteza, quanto à ocorrência ou não de um evento futuro. Assim é
que, em muitos casos, pode ser impossível afirmar por antecipação o que ocorrerá, mas é possível dizer o
que pode ocorrer. Por exemplo, se jogarmos uma moeda para o ar, de modo geral não podemos afirmar se
vai dar cara ou coroa. Além disso, mediante determinada combinação de julgamento, experiência e dados
históricos, em geral, é possível dizer quão provável é a ocorrência de determinado evento futuro.
Assim, as probabilidades são úteis porque auxiliam a desenvolver estratégias e faz com que o
método da inferência estatística se baseie na teoria da probabilidade para formular conclusões sobre toda
uma população (N) baseada em uma amostra (n). Dessa forma é que alguns motoristas parecem
demonstrar uma tendência para correr a grande velocidade se acham que há pouco risco de serem
apanhados ou de correr acidentes fatais. Os investidores sentem-se mais inclinados a aplicar seu dinheiro
se as chances de lucro são boas, e você certamente carregará capa ou guarda-chuva se houver grande
probabilidade de chover. Analogamente, uma empresa pode sentir-se inclinada a negociar seriamente com
um sindicato quando há forte ameaça de greve, ou mais inclinada a investir em novo equipamento se há
boa chance de recuperar o dinheiro, ou ainda de contratar um novo funcionário que pareça promissor,
dentre outros.
Ao longo dos anos, os cálculos probabilísticos vieram se aperfeiçoando, passando da simples
análise de fatos concretos à abstração destes. Um caso de utilização da teoria da probabilidade é o
envolver a maior loteria do Brasil, a Mega-Sena, onde são apostados de seis a quinze números, entre os
60 disponíveis no volante (01 a 60, inclusive respectivamente).
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 56
Neste jogo, os apostadores podem apostar de no mínimo seis números e no máximo quinze do
total de 60. Marcando 4, 5 ou 6 pontos (quadra, quina ou sena, respectivamente) receberão prêmios.
O preço das apostas dependendo de quantos grupos possíveis de seis números existem dentro dos
números escolhidos, variam de R$ 3,50 para seis números (somente 1 jogo possível) a R$ 8.758,75 para
15 números (5005 jogos possíveis). A possibilidade de acertar a Mega-Sena ao fazer uma aposta mínima
é de 1 em 50.063.860 (aproximadamente 50 milhões).
O cálculo é feito da seguinte forma:
n = Total de número a escolher (n = 60)
X = Ganhar na Mega-Sena, ou seja, quantidade de números a acertar dentre os 60 números (x = 6
números), então:
Como a ordem de escolha dos números não importa, então usa-se a seguinte fórmula de
combinação:
860.063.50!54!6
!60
)!660(!6
!60
6
60
x
n
, então:
P(ganhar na mega-sena) = %000002,000000002,0860.063.50
1 , ou seja, as chances de
ganhar o jogo com uma única cartela é de 1 para 50 milhões. Para todos os efeitos práticos, essa
probabilidade é zero, o que significa que o apostador tem quase nenhuma chance de ganhar na loteria com
uma única cartela, mas mesmo assim, sempre há algum ganhador na loteria. Essa contradição aparente
pode ser explicada com a seguinte analogia:
“Suponha que há uma fila de microônibus de Fortaleza até o Porto Alegre (RS). Suponha que
pela distância entre as duas cidades e pelo comprimento de um microônibus normal, haverá, de forma
hipotética, aproximadamente 23 milhões de microônibus na fila. Diretores da loteria selecionariam, ao
acaso, um dos microônibus e colocariam um cheque de 30 milhões de reais em seu porta-luvas. Por um
custo de dois reais o apostador pode viajar pelo país e selecionar um (e somente um) microônibus e
verificar o porta-luvas”.
Em sua opinião, você acha que o apostador vai encontrar os 30 milhões no microônibus que
escolheu?
Você deve estar quase certo que não. Agora, permita que qualquer pessoa entre na lotérica e por
dois reais adquira uma cartela e suponha que 50 milhões de pessoas façam isso uma única vez. Com um
número tão grande de participantes é muito provável que alguém vá achar o microônibus com os 30
milhões, mas é quase certo que não será você.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 57
Este exemplo ilustra um axioma da Estatística chamando de a lei dos grandes números (proposta
por Bernoulli), que estabelece que a frequência relativa (proporção entre o número de elementos do
espaço amostral e o espaço amostral) do número de vezes em que um resultado ocorre quando um
experimento é repetido muitas vezes (um grande número de vezes) se aproxima do valor teórico da
probabilidade de resultado. Em outras palavras, quando se repete um experimento um número
suficientemente grande de vezes é possível, substituir a expressão “frequência relativa” por
“Probabilidade” com erro desprezível.
Bernoulli afirmou: “Para um grande número de experiências, tendo cada uma um resultado
aleatório, a frequência relativa de cada um desses resultados tende a estabilizar, convergindo para um
certo número que constitui a probabilidade desse resultado”.
É claro que se o número de repetições da experiência aleatória for bastante elevado, e a mesma
for repetida em sequências de n vezes, a frequência do acontecimento do evento E é diferente de
sequência para sequência, mas toma valores próximos de um valor dado. Esse valor é o limite para o qual
tende a frequência do acontecimento E, e é também o valor esperado (teórico) da probabilidade desse
acontecimento quando o número n de provas que se realizaram tende para infinito. Assim:
)(
)(lim)(
lim)(
n
En
nEP
nEP
No entanto, para este processo poder ter precisão, é necessário realizar um grande número de
vezes a experiência aleatória. Isto ocorrendo, para qualquer tipo de distribuição de probabilidade
(Normal, Uniforme, Triangular, Exponencial) a lei dos grandes números funciona também.
Na prática empresarial, a utilização lei dos grandes números ocorre devida uma razão bem
científica para escolha do ser humano médio como foco na formulação desta lei na gestão de pessoas,
podendo formulá-la mais ou menos assim: “O comportamento de um grande número de pessoas é mais
previsível do que o comportamento de um grupo pequeno ou que o comportamento de uma pessoa
isolada”. Essa afirmação nos ajuda a entender vários acontecimentos aparentemente misteriosos da vida
em sociedade, e muita mais na vida na empresa. Por exemplo, ninguém controla a quantidade de comida
que deve chegar a uma cidade como Fortaleza, ou quais tipos de comida devem ser encomendados, mas é
certo eu encontrar o que quero, quando quero, do jeito que quero. A habilidade que o sistema tem de
antecipar minhas necessidades e desejos sem que eu tenha falado deles a ninguém, é explicada pela lei
dos grandes números. Eu, um cara “médio”, não vou sair procurando nada muito fora da média. Chamam
esse talento para computar o que os “médios” querem, de talento de marketing, e para isso utilizam a
teoria da probabilidade.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 58
Ainda para uma maior explicação da lei dos grandes números, se não soubermos a probabilidade
de ocorrer algum evento natural (por exemplo, a chance de chover), ou se não conhecemos a fração de
alguma população que satisfaz uma condição (tal como quantas partes defeituosas foram produzidas
numa linha de montagem) podemos descobrir esta probabilidade ou esta porcentagem através de
numerosas observações e experimentos suficientes.
Um outro exemplo para a lei dos grandes números é você pode achar estranho que uma pessoa
ganhe duas vezes ou mais na Mega-Sena. O New York Times contou a história de uma mulher de Nova
Jersey (EUA) que ganhou duas vezes a lotaria americana, dizendo que as probabilidades eram de “1 em
17 trilhões”. Contudo, os estatísticos Stephen Samuels e George McCabe da Universidade de Purdue
calcularam a probabilidade de alguém ganhar a loteria duas vezes num período de 4 meses como de 1
para 30.
Por quê essa chance e essa probabilidade de ganho aumenta?
Porque os jogadores não compram um único bilhete para cada uma das duas loterias, compram
vários bilhetes múltiplos por semana. Justificando nesse caso a lei dos grandes números com a quantidade
grande de jogadas por jogadores.
Em outras palavras, quer ganhar na Mega-Sena, aposte nela e com muitas cartelas, mas muitas
mesmo.
Um outro exemplo para a lei dos grandes números é, se fizermos uma pesquisa sobre a
população de um Estado brasileiro e observamos apenas alguns cidadãos (amostra), os resultados podem
conter grande erro, porém se analisarmos várias pessoas em várias cidades diferentes dentro deste Estado
(selecionados ao acaso), os resultados das amostras estarão muito próximos dos verdadeiros valores da
população e quanto maior a amostra (maior número de pessoas entrevistadas) maior será esta
aproximação.
Diante de tudo isto, os jogos, considerados legais, no Brasil é estimulado, pois de acordo o site
da Caixa Econômica Federal (Janeiro, 2012), quem joga na Mega-Sena tem milhões de motivos para
apostar e milhões de brasileiros para ajudar. 51% do valor arrecadado com as apostas é repassada ao
Governo Federal, que pode, então, realizar investimentos nas áreas da saúde, educação, segurança, cultura
e do esporte, beneficiando toda a população, por exemplo, 18,1% é destinado à Seguridade Social, 7,76%
ao FIES-Crédito educativo e 3,14% ao Fundo Penitenciário Nacional.
Desde então, as loterias em geral se tornaram imensamente populares por duas razões. Primeiro,
elas atraem o apostador com a oportunidade de ganhar milhões de reais com um investimento de dois
reais, segundo, quando o apostador perde, pelo menos acredita que seu dinheiro está indo para uma boa
causa.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 59
A Mega-Sena não é simplesmente uma “vantagem” para o povo concedida pelo governo, pois
como a grande maioria dos apostadores são pertencentes à classe baixa, os mesmos gastam na loteria
aproximadamente o mesmo que pessoas de classe média, mas por terem menos dinheiro, o maior
percentual de seus ganhos dos que apostam na sorte se destinam a esse fim. Isso faz desta uma forma de
atividade “regressiva”, ou seja, empobrece mais quem já é tido como pobre.
“Sempre acerto 11 pontos e ganho 2 reais na LOTOFACIL, só
uma vez que acertei 13 pontos e ganhei 10 reais. No total ja
ganhei 32 reais, mas aí descontei 12 reais das apostas, sobrou
20 reais, só que aí fui descontar os outros jogos que eu não
acertei e vi que fiquei 17 reais mais pobre...”
(depoimento anônimo de um jogador)
2. CONCEITOS INICIAIS:
Experimentos(1) aleatórios: São aqueles que não são previsíveis, mesmo que repetido em idênticas
condições, geram resultados diferentes, pois ocorrem ao acaso.
Ex1: Lançamento de uma moeda honesta
Ex2: Lançamento de um dado não viciado
Ex3: Sorteio de uma bolinha no bingo
Ex4: Determinação da vida útil de um aparelho eletrônico
Ex5: Resultado de um jogo de futebol.
Espaço amostral (): É o conjunto de todos os resultados possíveis de um experimento aleatório, ou
seja, é o conjunto universo do experimento.
Ex: Seja o experimento “Lançar uma moeda honesta”.
Os resultados possíveis são:
= {C, K}, onde C = Cara e K = Coroa
Evento (E): É o subconjunto do espaço amostral que contém os resultados que nos interessam.
Ex: Lançam-se uma moeda e um dado.
Enumere o seguinte evento: E1= Sair cara e face par
Evento certo: É o evento que ocorre com certeza (É o próprio espaço amostral).
Ex: Sair face menor que 7 no lançamento de um dado.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 60
Evento impossível: É o evento que nunca ocorre (), ou seja, não há possibilidade de ocorrência deste
evento.
Ex: Obter soma maior que 12 no lançamento de dois dados.
Operações com eventos aleatórios:
a) União: Sejam os eventos A e B, a união do evento A ao evento B é entendido por A B. Representa a
ocorrência de pelo menos um dos eventos, A ou B.
Ex: Seja o experimento: “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos:
E1: Ocorrer face par
E2: Ocorrer número menor que 3
Então, E1 E2 =
Representação esquemática pelo diagrama de Venn:
b) Interseção: O evento interseção é formado pelos pontos amostrais que pertencem simultaneamente
aos eventos A e B, sendo representado por A B.
Ex: Seja o experimento “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos:
E1: Ocorrer face par ou
E2: Ocorrer um número primo
Então, E1 E2 =
Eventos mutuamente exclusivos ou disjuntos: São eventos que não ocorrem simultaneamente, ou
seja, A B = , pois a ocorrência de um deles anula a ocorrência do outro.
Ex: Seja o experimento “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos:
E1: Ocorrer face par
E2: Ocorrer face ímpar
Então, E1 E2 =
E1
E2
E1
E2
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 61
Eventos complementares ( )E : O complemento de um evento “E”, denotado por E ou cE , consiste
em todos os resultados em que o evento “E” não ocorre, ou seja, é o acontecimento complementar de E.
Eventos complementares são eventos mutuamente exclusivos, mas a recíproca não é verdadeira,
ou seja, nem todo evento mutuamente exclusivo é complementar, por exemplo, no jogo de futebol, se o
time ganhar é por que o outro perdeu, mas se empatar, nenhum ganhou ou nenhum perdeu.
E E = (mutuamente exclusivo)
E E = E + E = E = - E
Dizemos que E e E são complementares se sua união é o próprio espaço amostral e sua
interseção é vazia.
Exemplo1: Cara ou coroa na jogada de uma moeda
Exemplo 2: Feridos e não feridos num acidente
Exemplo 3: Seja o experimento: “Resultado final de uma disciplina”: Aprovado ou não aprovado
2.1. Definição de Probabilidade: É a possibilidade de que certo evento venha ocorrer, ou seja, é uma
medida da incerteza associada aos resultados do experimento aleatório. De acordo a Lei de Laplace: Seja
um espaço amostral equiprovável (quando todos têm a mesma probabilidade de ocorrer) de um
experimento aleatório, e E, um evento desse espaço amostral finito*, definido por:
do elementos de Número
E de elementos de Número)(EP , assim:
)(
)()(
n
EnEP
Em outras palavras, probabilidade é uma fração entre o número de resultados favoráveis (aqueles
que satisfazem a necessidade do problema as ser calculado) com o número de resultados possíveis.
De acordo a Lei dos Grandes Números: Quando o número de provas aumenta muito, tendendo
para infinito, a frequência relativa de cada acontecimento, associado à experiência aleatória tende a
estabilizar na vizinhança de um certo valor, ou seja, converge para um limite que é a probabilidade desse
acontecimento.
Propriedades/Axiomas:
a) A probabilidade de um evento certo é igual a 1, isto é, P() = 1
b) O P(E) 1: A probabilidade de um evento ocorrer é sempre maior ou igual a zero e menor ou igual a
1.
c) 1)()()(1)( APAPAPAP = P(), ou seja, a soma de eventos mutuamente exclusivos
sempre será igual a 1.
d) P() = 0, mas a reciproca não é verdadeira, pois o fato de P(A) = 0 não implica que seja impossível.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 62
Exercício 1: Em um teste com 3 questões do tipo verdadeiro e falso, um estudante que não está preparado
deve responder cada uma aleatoriamente (“chutando”). Portanto:
a) Relacione os diferentes resultados possíveis:
Solução:
b) Qual é a probabilidade de responder corretamente todas as três questões?
Solução:
c) Qual é a probabilidade de passar no teste “chutando” corretamente pelo menos 2 questões?
Solução:
2.2. Teorema da soma: Seja E um espaço amostral finito e não vazio. O principal objetivo da regra da
adição é encontrar a probabilidade de ocorrência do evento A, ou do evento B, ou de ambos, ou pelo
menos um deles. Assim:
P (A B) = P (A) + P (B) – P (A B)
Ou
)BA(P)BA(P)BA(P)BA(P
Representando pelo diagrama de Venn:
Se os eventos forem mutuamente exclusivos, ou seja, não ocorrem simultaneamente, isto é,
A B = , então P (A B) = 0, assim: P (A B) = P (A) + P (B)
P (A e B) = P (A B)
Exercício 2: Uma pessoa vai ler uma frase de uma página ao acaso
de um livro de 240 páginas. Qual a probabilidade de ser escolhida
uma página com número compreendido entre 80 e 120, excluindo
estes dois?
Solução:
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 63
Quando as probabilidades de eventos mutuamente exclusivos somam 1, diz-se que os eventos
são coletivamente exaustivos, nesse caso não existem outros resultados possíveis.
Leis de Morgan ou Leis das Dualidades: Seja E um espaço amostral finito e não vazio. O principal
objetivo da regra é verificar a:
)BA(P = Probabilidade de não ocorrer A e B, ou seja, não ocorre a interseção.
)BA(P = Probabilidade de não ocorrer “A” e não ocorrer “B”, ou seja, não ocorre cada um
separadamente, assim: )BA(P =1- P(A B)
)()(1)( BAPBAPBAP : A probabilidade de não ocorrer a interseção.
Sejam A, B e C três eventos. Então:
P (A B C) = P (A) + P (B) + P (C) – P (A B) – P (A C) – P (B C) + P (A B C)
Exercício 3: Considere um experimento aleatório e os eventos A e B associados, tais que
P (A) = 2
1, P (B) =
3
1 e P (A B) =
4
1. Então temos:
a) )A(P
b) P(A B)
c) )BA(P
d) )BA(P
e) )BA(P
Exercício 4: Quando Maria pára em um posto de gasolina, a probabilidade dela abastecer o seu
automóvel é 0,73; a probabilidade dela pedir para verificar a pressão dos pneus é 0,28 e a probabilidade
dela pedir para realizar ambos, abastecimento e pneus é 0,04. Portanto, a probabilidade de Maria parar em
um posto de gasolina e não pedir nem para abastecer o automóvel e nem para verificar a pressão dos
pneus é igual a:
Solução:
2.3. Probabilidade condicional:
Se A e B são eventos associados a um espaço amostral , com P(B) 0, então a probabilidade
de ocorrência do evento A condicionada à ocorrência do evento B, é denotada por P (A/B) e definida pela
relação:
)(
)()/(
BP
BAPBAP
, onde P (B) > 0
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 64
Nesse caso,
)(
)(
)(
)(
)/(
n
Bn
n
BAn
BAP
Se A e B forem independentes:
)()(
)().()/( AP
BP
BPAPBAP , analogamente P(B/A) = P(B), ou seja, a regra da probabilidade
condicional não se aplica.
Exercício 5: Um número é sorteado ao acaso entre os inteiros: 1, 2, ... , 15. Se o número sorteado for par,
qual a probabilidade de que seja o número 6?
Solução:
Através da definição da probabilidade condicional definiu-se o chamado Teorema da
Multiplicação.
2.4. Teorema da multiplicação: A regra da multiplicação calcula a probabilidade de o evento A ocorrer
e a ocorrência do evento B, ou seja, P(A e B).
P (A e B) = P (A). P (B), se A e B são independentes
P (A e B) = P (A). P (B/A), se A e B são dependentes
Eventos independentes: Dois eventos A e B são independentes se a ocorrência de um deles não afeta
a probabilidade de ocorrência do outro, caso contrário, são dependentes. Então:
P (A B) = P (A). P (B), se A e B são independentes
P (A B) = P (A). P (B/A), se A e B são dependentes
A regra da multiplicação é extremamente importante em virtude de suas inúmeras aplicações.
Exemplo de dependência: O lançamento de uma moeda e um dado são eventos independentes, porque o
resultado da moeda não afeta a probabilidade do resultado do dado. Por outro lado, os eventos “conseguir
dar partida no carro” e “chegar à aula no horário” são dependentes, por que o resultado da operação de
dar partida no carro influi na probabilidade de chegar à aula no horário. E outra, assistir as aulas de
estatística depende para passar na disciplina de estatística.
Se A e B são mutuamente exclusivos, então A e B são dependentes, pois se A ocorre, B não
ocorre, isto é, a ocorrência de um evento condiciona a não ocorrência do outro.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 65
Um exemplo de independência: A confiabilidade de um sistema aéreo: Os aviões têm dois sistemas
elétricos independentes e dois rádios. Um avião deve levar dois transceptores de radar, porque se um
único falhar o avião se torna invisível na tela do radar. Se a probabilidade de um desses componentes
falhar é de 0,001, ou seja, 1/1000 (um para cada mil), a probabilidade de dois falharem simultaneamente é
de apenas 0,001², ou seja, 1/1.000.000 (um para cada um milhão).
Um outro exemplo de independência: Imagina a situação em que em uma mão você tenha um dado e
em uma outra uma moeda, o lançamento de um e de outro não influencia nos seus respectivos resultados.
Ou seja, lança uma moeda para cima e um dado sobre a mesa não vai influenciar em nada, pois são
eventos independentes.
Exercício 6: Em uma caixa existem 5 bolas brancas e 8 bolas azuis. Duas bolas são retiradas uma após a
outra da caixa, aleatoriamente e sem reposição. Determine:
a) A probabilidade de serem brancas:
b) A probabilidade de uma ser branca e outra azul, em qualquer ordem:
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 66
Nota de Aula 7 – Apresentação Tabular e Gráfica de
Dados Com Uso Do Microsoft Excel
1. GERAÇÃO DE TABELAS E GRÁFICOS:
1º Passo: Abrir o Excel
Ao abrir o Excel: Visualizar o banco de dados (em anexo) referente ao perfil dos funcionários de uma
Empresa.
Identificar os tipos de variáveis:
Estado Civil: Variável Qualitativa Nominal
Sexo: Variável Qualitativa Nominal
Grau de instrução: Variável Qualitativa Ordinal
Salário (S.M): Quantitativa Contínua
Idade: Quantitativa Contínua
2º Passo: Fazer uma tabela para “Estado Civil”
Clicar na planilha nova (ao clicar já insere automaticamente outra planilha): Digitar na célula B2 as zonas
enunciativas da tabela (Estado Civil e Frequência).
Após isso digitar os estados civis dos funcionários que contém no banco de dados (Casado e Solteiro)
nessa ordem.
1.1. Frequência simples ou absoluta: Embaixo da palavra “frequência” que foi digitada:
Ir em Fórmulas Inserir função (fx) Selecionar a função “CONT.SE” clicar em “OK”
OBS: Para selecionar tudo de uma vez, clique em shift + end + (tudo junto).
Em “Intervalo”: selecionar todos os funcionários referentes à célula estado civil, sem o rótulo (título).
Em “Critérios”: Selecione o estado civil que está querendo quantificar (Essa seleção deve ser na
planilha do banco de dados e não na que foi criada, pois caso contrário vai dar “zero” e tá errado: O Excel
só entende se copiar e colar as palavras exatamente do banco de dados ou clicar nele). Clicar em
“OK”.
Embaixo do último estado civil digitado, digitar a palavra “Total” e na célula ao lado, clicar em
“Somatório” ou “=soma(C3:C4)”: O resultado deve ser 36, pois é a quantidade de funcionários no banco
de dados.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 67
1.2. Frequência relativa (%): Ao lado do valor encontrado para o estado civil “casado”, calcular a
frequência percentual para esse estado civil:
Digitar a seguinte fórmula: =(valor encontrado/valor total) Clicar em “%” com uma casa decimal
(Formatar Célula Em porcentagem, clicar em 1 casa decimal).
Para fixar o valor total clicar no meio dele e depois em f4 e arrasta até fim da tabela.
Para a célula abaixo (Solteiro): Repetir os passos acima;
Em “Total”, clicar em “Somatório” ou “=soma(C3:C4)” (Cuidado, o total deve resultar em 1 ou
100%).
1.3. Formatação da tabela: Selecione toda zona enunciativa da tabela e clique em “Bordas” (Borda
superior e inferior). Idem para o “Total”.
Se quiser: Selecione toda coluna de “Frequência” e clicar em Borda externa (quadrado).
Cuidado: A tabela não deve ser fechada nas bordas.
Saída do Excel:
Estado Civil Frequência Frequência (%)
Casado 20 55,6
Solteiro 16 44,4
Total 36 100,0 Tabela 1: Estado civil dos funcionários da empresa x, Fortaleza, Ceará, 2013
Fonte: Empresa x
3º Passo: Construção do gráfico para a tabela de “Estado Civil”
O gráfico só sairá corretamente após a construção da tabela.
Selecionar os estados civis (Solteiro e Casado) e as respectivas freqüências: Ir em Inserir escolher
gráfico de pizza Avançar Clicar em “OK”.
OBS: Não precisa selecionar a frequência relativa (%) só a absoluta (o Excel já transforma se quiser).
1.4. Formatação do gráfico:
Apagar a legenda
Clicar com botão direito do mouse (Em uma das partes do gráfico, NÃO NAS DUAS): Formatar
Pontos de dados
Em “Prenchimento” (mudar as cores).
Em “Formatar Rótulo de dados” “Clicar em Porcentagem e Nome da Categoria” Ajustar
arrastando a melhor forma de apresentar os resultados Na porcentagem encontrada: Clicar com botão
direito do mouse Formatar rótulo de dados Número Porcentagem Casas decimais = 1.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 68
Título: Botão direto do mouse: Opções do gráfico Em Título: digitar “Estado Civil dos
funcionários da Empresa x, Fortaleza 2013”.
Saída do Excel:
Gráfico 1: Estado Civil dos funcionários da Empresa x, Fortaleza 2013
Fonte: Empresa x
2. TABELA DINÂMICA:
Clicar em Inserir Tabela dinâmica Selecionar todo o banco de dados Intervalo: Selecione
Estado Civil e Sexo (tudo junto) Avançar Nova Planilha Concluir
Arrastar a variável estado civil para a coluna e a variável sexo para linha e qualquer uma das duas no
meio.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 69
Saída do Excel:
Gráfico 2: Estado Civil e Sexo dos funcionários da Empresa x, Fortaleza 2013
Fonte: Empresa x
Sexo Estado Civil
Total Casado Solteiro
Feminino 12 10 22
Masculino 8 6 14
Total 20 16 36
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 70
Anexo 3 – Banco De Dados
Banco de dados referente ao perfil dos funcionários de uma determinada empresa
Nº. Estado Civil Sexo Grau de instrução Salário (S.M*) Idade
1 Solteiro Feminino Ensino Médio 6 20
2 Solteiro Feminino Ensino Médio 7 23
3 Solteiro Masculino Superior 11 25
4 Solteiro Masculino Ensino Fundamental 4 26
5 Casado Feminino Superior 13 26
6 Solteiro Feminino Ensino Fundamental 8 27
7 Casado Feminino Ensino Fundamental 7 28
8 Casado Feminino Ensino Médio 15 29
9 Casado Masculino Ensino Médio 9 30
10 Casado Feminino Ensino Médio 11 30
11 Casado Feminino Ensino Médio 10 31
12 Solteiro Feminino Superior 16 31
13 Casado Feminino Ensino Fundamental 5 32
14 Casado Feminino Ensino Médio 13 32
15 Casado Masculino Ensino Médio 8 33
16 Solteiro Feminino Superior 19 33
17 Casado Feminino Ensino Médio 8 34
18 Solteiro Masculino Ensino Médio 12 34
19 Casado Masculino Ensino Médio 14 35
20 Casado Masculino Ensino Médio 16 35
21 Casado Masculino Ensino Fundamental 5 36
22 Casado Feminino Ensino Médio 17 36
23 Solteiro Feminino Ensino Médio 9 37
24 Solteiro Masculino Ensino Médio 11 37
25 Solteiro Feminino Ensino Médio 9 38
26 Casado Masculino Ensino Fundamental 10 39
27 Solteiro Feminino Ensino Fundamental 6 40
28 Casado Masculino Ensino Médio 15 40
29 Solteiro Feminino Ensino Fundamental 7 41
30 Solteiro Feminino Ensino Fundamental 12 41
31 Casado Masculino Superior 23 42
32 Solteiro Masculino Ensino Fundamental 7 43
33 Casado Feminino Superior 17 43
34 Casado Feminino Ensino Fundamental 9 44
35 Solteiro Masculino Ensino Fundamental 14 46
36 Casado Feminino Ensino Médio 19 48 Fonte: Empresa X
*Salário mínimo
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 71
Nota de Aula 8 – Distribuição Normal
1. INTRODUÇÃO:
Quando uma variável aleatória assume somente valores inteiros, suas informações são originadas
de uma variável aleatória discreta, pois estas são obtidas por contagem. Agora, em alguns casos, os
resultados de uma variável aleatória podem não estar limitados somente a números inteiros, mas podendo
ser não inteiros também. Suponha, por exemplo, que uma variável X represente a altura (cm) de um
indivíduo, neste caso, raramente um indivíduo tem exatamente 1,77cm ou 1,78cm de altura, pois
teoricamente, esta variável pode assumir um número infinito de valores intermediários, como 1,7704cm
ou 1,7832 cm, por isso trata-se de uma variável aleatória contínua, variável este que é obtida por
mensuração e por este motivo seus possíveis valores tendem para o infinito, visto não serem inteiros.
A descoberta teve logo grande sucesso e grandes estudiosos da época foram ligados à curva
normal, tais como Laplace que em 1783 a utilizou para descrever a distribuição de erros, e Gauss que em
1809 a empregou para analisar dados astronômicos.
Assim, como Gauss foi a primeira pessoa a reafirmar o papel fundamental proposta por Moivre a
curva da normal é chamada hoje de curva de Gauss.
Antes de explanar com mais detalhes a curva de Gauss, faz-se necessário analisar a lei dos
grandes números proposta por Bernoulli. Esse teorema diz o seguinte: numa situação de eventos casuais,
onde as alternativas são independentes, obter coroa em lances de uma moeda de cara ou coroa, tem a
A distribuição contínua mais comum e mais utilizada
no âmbito estatístico é a distribuição de probabilidade chamada
normal, que também é conhecida como curva em forma de sino
ou curva de Gauss, como será vista mais adiante.
Esta distribuição tem uma história bastante longa, e
está ligada à história da descoberta das probabilidades, que
surgiram no século XVII para resolver, inicialmente, questões
de apostas de jogo de azar.
O responsável direto pela curva normal foi o
matemático francês Abraham de Moivre (1667-1754), exilado
na Inglaterra, que a definiu em 1730, dando sequência aos
trabalhos de Jacob Bernoulli (com o teorema dos grandes
números) e de seu sobrinho Nicolaus Bernoulli, ambos
matemáticos suíços.
Johann Carl Friedrich Gauss (1777-1855)
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 72
probabilidade matemática exata de 50% (porque somente dois eventos possíveis: cara ou coroa), mas na
prática esta probabilidade de 50% é apenas aproximada. E essa aproximação é tanto mais exata quanto
maior forem às tentativas que você fizer de lançar moeda, chegando a quase atingir os exatos 50% se
você lançar a moeda infinitas vezes. Isto é, quanto mais lances você fizer, menor será o desvio (erro) em
relação à média de 50% que o resultado irá produzir. Isso quer dizer que os desvios serão menores na
medida em que sobe o número de lances. Desvios grandes são raros e desvios pequenos frequentes,
quanto menores os desvios mais frequentes eles serão, de sorte que, aumentando as tentativas (os lances),
aumenta-se o número de desvios pequenos, sobrepujando cada vez mais os desvios grandes, de tal sorte
que, no limite, haverá quase somente desvios pequenos, sendo o desvio zero o menor deles e, por
consequência, o mais frequente.
O matemático francês Moivre assumiu essa idéia de Bernoulli e disse: erros grandes são mais
raros que erros pequenos. Assim, quanto menores os erros, mais frequentes eles serão e quanto maiores,
menos frequentes. Dessa forma, os erros se distribuem equitativamente em torno de um ponto modal, a
média, formando uma curva simétrica com pico na média e caindo rapidamente para as caudas à esquerda
(erros que subestimam a média) e à direita (erros que superestimam a média). Além disso, essa curva
simétrica permitiu a Moivre calcular uma medida de dispersão das observações em torno da média,
medida esta que hoje em dia é conhecida como o desvio padrão. Moivre, ainda chamou esta curva de
normal, por que a média dela representa a norma, isto é, as coisas todas deviam ser como a média, de
sorte que tudo que se desvia dessa média é considerado erro, portanto a equivalência, neste caso, entre
desvio e erro.
Um outro matemática do século XIX, de origem belga, Quetelet, fez uma “orgia de medições”
sobre eventos do homem, tais como natalidade, mortalidade, alcoolismo, insanidade, medidas
antropométricas, dentre outros, resultando no Tratado sobre o homem e o desenvolvimento de suas
faculdades (1835), afirmando que tudo no homem e no mundo se distribui segundo a curva normal.
Embora essa afirmação de Quetelet tenha tido reações contrárias, ela evocou pesquisas sem fim sobre esta
história da distribuição normal dos eventos, chegando hoje em dia a ser mantida a idéia de que,
praticamente, todos os eventos se distribuem assim. Daí, a hegemonia da curva normal nas análises
estatísticas em pesquisas científicas.
Aliás, assumir a distribuição normal em pesquisa está baseado em dois fundamentos:
1 – Quando a distribuição da própria população for normal, ou
2 – Quando a distribuição da população não for normal, mas se tiver o número grande de casos (teorema
de Bernoulli através da lei dos grandes números ou o teorema central do limite).
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 73
Esta história do limite central é extremamente complicada, mas os matemáticos chegaram a
provar este teorema. Assim, qualquer que seja a distribuição dos seus dados, se você tiver um número
grande de observações, você pode usar com tranquilidade a curva normal como uma aproximação
adequada para a análise dos seus dados. Uma curiosidade: um N de tamanho 30 já é considerado um
grande número se a distribuição da população for próximo do normal. Um N bem maior será necessário
se a distribuição da população não for normal.
Hoje em dia, a curva da normal é um ganho fundamental na prática estatística, pois a
normalidade dos dados ocorre naturalmente em muitas áreas científicas, como na física, biologia e nas
áreas sociais, e também uma distribuição fundamental para a inferência estatística. Por exemplo, a sua
aplicação na análise de dados na área da biomedicina é grande, pois muitas variáveis numéricas contínuas
comprovaram que têm distribuição normal ou aproximadamente normal. Um outro exemplo que pode ser
citado é a altura, o peso, o índice de massa corporal (IMC) dos indivíduos, dentre outras. Alguns dos
principais métodos empregados na análise estatística, como a Análise de Variância, a Análise de
Regressão, dentre outros exigem, como pressuposto que os dados sigam uma distribuição normal para sua
realização.
Esta nota de aula mostrará o uso prático da distribuição normal de probabilidade e a sua
importância tanto na academia quanto no mercado empresarial.
2. DISTRIBUIÇÃO NORMAL:
Mas por que esta distribuição tem esse nome? Existe uma explicação plausível para isto, será
visto mais adiante.
A distribuição normal é uma distribuição de probabilidade usada para variáveis aleatórias
contínuas (obtidas por mensuração), com a seguinte notação X ~ N (; ²) e sua função densidade de
probabilidade é dada por:
2
2
1
2
1)(
x
exf , para - < x < (ou x ), onde:
X = Variável aleatória contínua analisada
x = Valor qualquer da variável aleatória X
= Média populacional
= Desvio padrão populacional
= 3,1416...
e = 2,7182...
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 74
3. CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL:
a) A variável “X” pode assumir qualquer valor real (- a +);
b) O gráfico da distribuição normal tem uma curva simétrica (a média moda mediana) e unimodal na
forma de um sino e é apresentado um ponto de inflexão à esquerda (x = - 1) e outro à direita (x = +
1), ou seja, ou seja, o que define a área sob a curva são os desvios padrão (), assim fixando o valor da
média, o “achatamento” da curva está diretamente ligado ao valor de .
O gráfico que mostra os indícios de que os dados de uma distribuição é aproximadamente normal
é o histograma ou o diagrama de ramo e folhas.
A distribuição normal é uma das distribuições fundamentais da moderna teoria estatística. A
vantagem da distribuição normal reside na facilidade de defini-la com apenas dois parâmetros, a média
e o desvio padrão da distribuição, por exemplo, suponha a seguinte a curva da normal f(x) para = 40 e
= 10, o gráfico construído será:
0,0000
0,0050
0,0100
0,0150
0,0200
0,0250
0,0300
0,0350
0,0400
0,0450
0 10 20 30 40 50 60 70 80
Parâmetros da variável aleatória
Freq
uên
cia
rela
tiv
a
Gráfico 1: Distribuição Normal com média e desvio padrão
Substituindo os parâmetros
= 40 e = 10 na função densidade
de probabilidade, será encontrado os
seguintes valores:
x f(x)
20 0,0007
30 0,0146
40 0,0399
50 0,0146
60 0,0007
Segue o gráfico 1 com a plotagem dos
seguintes valores.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 75
Uma das características importantes da normal é que a partir desses parâmetros será possível
calcular, por exemplo, a porcentagem de valores que deverão estar acima ou abaixo de um determinado
valor da v.a., ou entre esses dois valores definidos.
Analisando a fórmula de f(x), observe que para cada par de parâmetros e , há uma curva
diferente de f(x) ou que, para qualquer outro par de parâmetros e , a curva f(x) será diferente.
c) Os valores de f(x) nunca tocam o eixo “x” da curva da Normal, mas f(x) 0, se x ;
d) A área sob a curva é 1.
Como se trata de distribuição de probabilidade contínua, a área que fica entre a curva e o eixo “x”
representa a probabilidade. A probabilidade de ocorrer um evento entre os pontos “a” e “b” é calculada
pela integral definida (visto na disciplina de cálculo) da função entre os pontos “a” e “b”, representada
por:
2
2
1
2
1),(
xb
a
ebaP , graficamente:
Observa-se que o cálculo direto de probabilidade envolvendo a distribuição normal exige recursos
de cálculo avançado e, mesmo assim, dada a forma da função densidade de probabilidade (f.d.p), não é um
processo muito elementar. Por isso ela foi tabelada, permitindo assim obter diretamente o valor da
probabilidade desejada.
Verifica-se que, no entanto a f.d.p da normal depende de dois parâmetros, a e ², o que acarreta
um grande trabalhado para tabelar as probabilidades, considerando-se as várias combinações de e ².
Esse problema pode ser resolvido por meio de uma mudança de variável, obtendo-se, assim, a
distribuição normal padronizada ou reduzida.
a b
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 76
4. A CURVA NORMAL E A CURVA PADRONIZADA (Z):
Os pesquisadores quando falam da curvam normal, tipicamente entendem a curva normal
padronizada (ou igualitária a normal original), a qual é definida pela simetria e pela curtose. Mas a curva
normal original é definida exclusivamente pela simetria, isto é, que as áreas sob a curva são idênticas em
ambos os lados da média: a curva normal é unimodal (tem apenas um pico) e simétrica. Assim, todas as
curvas da figura abaixo são normais, porque têm um pico somente e são simétricas, embora os desvios
sejam diferentes, provocando diferentes níveis de curtose.
Na fórmula
2x
2
1
e2
1)x(f
, observa-se que a parte mais importante é o expoente
2X
2
1
, e nele se vê que quem comanda as ações são os dados empíricos de X e os parâmetros de
sua distribuição (µ e ). Agora, tanto os X quanto os parâmetros de uma distribuição variam de pesquisa
para pesquisa e, assim, as curvas normais que resultam são diferentes. Portanto, ao invés de trabalhar com
os valores brutos de X, vamos padronizar estes valores e transformá-los em valores de Z, ou seja, agora a
distribuição normal terá o seguinte formato:
XZ , com isso 2
2
2
1)(
Z
eZf
A vantagem deste curva normal padronizada é que em alguns parâmetros já estão
automaticamente definidos para qualquer escala de medida que você utilizar , quais seja, a média é zero
( = 0) e desvio padrão um ( = 1), onde suas probabilidades já foram calculadas e são apresentadas em
uma tabela (ver anexo desta nota de aula) de fácil utilização. Essa tabela nada mais é que uma tabela de
conversão do número de desvios padrão entre x e em um algoritmo.
Em que X é uma variável aleatória normal da média e variância ² (são constantes), assim:
X ~ N(; ²) Z ~ N(0; 1²), seu gráfico será:
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 77
A curva normal padronizada é definida pela simetria e pela curtose, sendo chamada de
mesocúrtica.
A curtose da distribuição normal se refere á altura do pico da curva, o qual acontece na média da
distribuição: se o pico é muito elevado, a curva é chamada de leptocúrtica, se o pico é achatado a curva é
chamada de platicúrtica, se for mediano, a curva é chamada de mesocúrtica, sendo esta última, a
característica da normal padronizada, como mostra a figura abaixo:
Trabalhar com a curva normal padronizada facilita muito a vida da gente, pois com ela a média
sempre será zero e o desvio padrão será um. Quando não for padronizada, então teremos que calcular o
valor da média e o valor do desvio padrão da distribuição e trabalhar com os dois parâmetros.
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 78
5. USO DA TABELA NORMAL PADRÃO (Z):
A tabela oferece a área entre 0 e Z0 ou P(0 Z Z0), conforme visto no gráfico abaixo:
Onde Z0 representa o número de desvios padrão distante da média, ou seja, as informações
contidas nessa tabela não são sempre idênticas nos diferentes autores de livros de estatística, mas duas
informações sempre estão presentes e essas duas são as mais importantes, a saber, o Z e a proporção de
casos que caem na faixa que vai da média zero até este valor de Z. Assim, se você conhece o Z, você
pode descobrir qual a proporção de casos que corresponde a ele ou, se você conhece a proporção de
casos, você pode descobrir qual o Z que lhe corresponde.
OBS: Embora a curva normal vá até o infinito (positivo e negativo), você vê que quase a totalidade dos
casos cai entre -3 e 3 desvios padrão (ou Z), de fato, 99,74% dos casos, por isso, a tabela (em anexo) varia
-3,99 a 3,99, acima ou abaixo disso é 0,499.
6. REGRA EMPÍRICA (OU REGRA 68-95-99):
Outra regra que auxilia a interpretação de um desvio padrão é a regra empírica, aplicável
somente a conjunto de dados com distribuição aproximadamente em forma de sino, pois mostra como a
média e o desvio padrão estão relacionados com a proporção dos dados que se enquadram em
determinados limites. A regra é a seguinte:
Cerca de 68% dos valores estão a menos ou a mais de 1 desvio padrão a contar da média, o que
justifica o nome da distribuição de probabilidade “normal”, pois 68% representa a maioria, e a maioria é
o que representa “ser normal” ou que está “dentro do padrão”. Nesse caso, 68% dos elementos (a maioria)
apresentam determinada característica;
Se quiser melhorar esse nível proporcional de elementos que possuem determinada característica, de 68%
para 95%, ou seja, basta-se pegar 2 desvios padrão para mais e para menos a contar da média, assim:
Cerca de 95% dos valores estão a menos ou a mais de 2 desvios padrão a contar da média;
Se quiser ainda aumento esse nível proporcional de 95% para 99,7%, então deve-se pegar 3 desvios
padrão para mais e para menos a contar da média, assim:
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 79
Cerca de 99,74% dos valores estão a menos ou a mais de 3 desvios padrão a contar da média. Nesse
último caso, a análise é de quase toda a população possuir determinada característica.
Com isso, se os dados são aproximadamente normais, as porcentagens serão aproximadamente
iguais a 68%, 95% e 100%, respectivamente.
Ver figura da regra empírica.
Portanto, quase nunca é preciso prolongar muito as caudas de uma distribuição normal, porque a
área sob a curva é de mais ou menos 4 ou 5 desvios-padrão a contar da média é desprezível para quase
todos os fins práticos.
Exemplo 1: Encontre a probabilidade de:
a) P(Z 1,34)
b) P(Z 1)
c) P(-2,55 Z 1,2)
d) P(1 Z 3,09)
e) P( - 3 X + 3)
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 80
Exemplo 2: O saldo diário de caixa de uma determinada empresa de grande porte de Fortaleza nos
últimos 400 dias tem distribuição normal com média R$ 80.000 e desvio padrão R$ 40.000. Suponha que
o gerente financeiro desta empresa deseja tomar uma decisão de investimento com seu banco e precisa
com urgência saber qual a probabilidade do saldo do caixa de hoje às 18 horas fechar:
a) Entre R$ 30.000 e R$ 120.000, pois de acordo o Diretor Geral da empresa se o caixa de hoje fechar
com valores dentro desse intervalo, o gerente financeiro pode arriscar a fazer o investimento, mas isso só
pode ser realizado se a probabilidade for alta (de acordo o Diretor Geral é acima de 70%). Portanto
verifique para o gerente financeiro se ele pode ou não fazer o investimento.
b) Suponha que o gerente queira saber qual a probabilidade do caixa fechar com valor acima de 100 mil
reais. Confiando nessa possibilidade, você o aconselha fazer o investimento financeiro maior pensando
nesse valor em reais?
c) Existe a possibilidade do saldo diário de caixa ser negativo hoje? Se sim, qual é a probabilidade disso
acontecer?
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 81
Anexo 4 – Tabelas da Distribuição Normal
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 82
1ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA PARA AP1
VARIÁVEIS:
1) Suponha que um médico está interessado em fazer um levantamento sobre algumas características de
60 pacientes atendidos em sua clínica neurológica: sexo, peso, tipo de tratamento, número de convulsões
e classificação da doença (leve, moderada e severa). Os dados estão organizados no seguinte banco de
dados:
Paciente Sexo Peso Tipo de
Tratamento
Nº. de
convulsões
Classificação da
doença
1 M 89,79 A 1 Leve
2 F 64,20 A 3 Severa
3 M 91,00 B 2 Moderada
... ... ... ... ... ...
58 M 71,00 B 0 Severa
59 M 78,80 A 2 Leve
60 F 71,00 B 3 Moderada Fonte: Dados hipotéticos
De acordo com o banco de dados acima classifique o tipo de variável para as variáveis seguintes:
a) Sexo:
( ) Qualitativa Nominal ( ) Qualitativa Ordinal ( ) Quantitativa Discreta ( ) Quantitativa Contínua
b) Peso:
( ) Qualitativa Nominal ( ) Qualitativa Ordinal ( ) Quantitativa Discreta ( ) Quantitativa Contínua
c) Tipo de Tratamento:
( ) Qualitativa Nominal ( ) Qualitativa Ordinal ( ) Quantitativa Discreta ( ) Quantitativa Contínua
d) Número de Convulsões:
( ) Qualitativa Nominal ( ) Qualitativa Ordinal ( ) Quantitativa Discreta ( ) Quantitativa Contínua
e) Classificação da doença:
( ) Qualitativa Nominal ( ) Qualitativa Ordinal ( ) Quantitativa Discreta ( ) Quantitativa Contínua
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 83
2) O Governo Federal está exigindo uma quantidade maior de informação antes de aceitar um candidato e
decidir sobre a concessão de uma bolsa para uma faculdade privada de Fortaleza. Assim, classifique cada
uma das informações dos futuros alunos à instituição na ficha de inscrição do vestibular:
a) Quantidade de prêmios escolares obtidos:
( ) Qualitativa Nominal ( ) Qualitativa Ordinal ( ) Quantitativa Discreta ( ) Quantitativa Contínua
b) Classificação de testes de raciocínio:
( ) Qualitativa Nominal ( ) Qualitativa Ordinal ( ) Quantitativa Discreta ( ) Quantitativa Contínua
c) Salário (em reais) dos pais:
( ) Qualitativa Nominal ( ) Qualitativa Ordinal ( ) Quantitativa Discreta ( ) Quantitativa Contínua
d) Idade do candidato:
( ) Qualitativa Nominal ( ) Qualitativa Ordinal ( ) Quantitativa Discreta ( ) Quantitativa Contínua
3) Suponha que foram retirados de vários questionários de pesquisas as seguintes perguntas. Classifique
assim o tipo de variável de cada uma delas:
Pergunta 1: Qual o seu Estado civil?
( ) Solteiro ( ) Casado ( ) Separado ( ) Desquitado ( ) Outro. Qual?___________________
Pergunta 2: Qual a marca de carros que mais passa na cancela do estacionamento deste shopping center?
( ) Marcar A ( ) Marca B ( ) Marca C ( ) Marca D ( ) Outra. Qual?_____________________
Pergunta 3: Qual a sua faixa de Renda familiar mensal (OBS: Identificar a classe social de acordo com a
legenda abaixo)?
( ) Até R$ 724,00
( ) De R$ 724,01 a R$ 2.172,00
( ) De R$ 2.172,01 a R$ 3.620,00
( ) De R$ 3.620,01 a R$ 10.860,00
( ) Mais de R$ 10.860,00
Pergunta 4: Qual a cor de cabelo de sua preferência?
( ) Loiro ( ) Preto ( ) Acajú ( ) Outra. Qual?__________________________________________
Legenda com relação a faixa de renda familiar do pesquisado e sua classe
social:
Até R$ 724,00 – Classe E
De R$ 724,01 a R$ 2.172,00 – Classe D
De R$ 2.172,01 a R$ 3.620,00 – Classe C
De R$ 3.621,01 a R$ 10.860,00 – Classe B
Mais de 10.860,00 – Classe A
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 84
Marque a opção correta:
(a) Qualitativa Nominal, Qualitativa Ordinal, Qualitativa Ordinal e Qualitativa Nominal
(b) Qualitativa Nominal, Qualitativa Nominal, Qualitativa Ordinal e Qualitativa Nominal
(c) Qualitativa Nominal, Qualitativa Nominal, Qualitativa Nominal e Qualitativa Nominal
(d) Nenhuma das respostas anteriores
PLANEJAMENTO AMOSTRAL:
4) Identifique o tipo de técnica de amostragem probabilística para cada um dos casos abaixo:
a) Suponha que uma pesquisa de opinião pública será realizada no Estado do Ceará, que é constituído por
184 municípios. Os elementos na população de interesse são homens e mulheres do Estado com idade
acima de 21 anos. Que tipo de amostragem você sugeriria sob o ponto de vista econômico-financeiro?
( ) Amostra Aleatória Simples
( ) Amostra Aleatória Estratificada
( ) Amostra Sistemática
( ) Amostra por Conglomerado
b) Um médico está interessado em obter informação sobre o número médio de vezes em que 15.000
clínicos gerais, no ano passado, prescreveram certa droga para combater uma gripe. Deseja-se obter uma
amostra 1.600 clínicos gerais. Que tipo de amostragem você sugeriria e por quê?
( ) Amostra Aleatória Simples ou Amostra Aleatória Estratificada
( ) Amostra Aleatória Simples ou Amostra Sistemática
( ) Amostra Aleatória Simples ou Amostra por Conglomerado
( ) Nenhuma das Anteriores
c) Suponha que nesta sala de aula existam 50 alunos e deseja-se saber qual o peso (em kg) deles. A
sugestão é analisar 30% da população com escolha através da lista de presença do professor. Que tipo de
técnica de amostragem representa esta situação?
( ) Amostra Aleatória Simples ou Amostra Aleatória Estratificada
( ) Amostra Aleatória Simples ou Amostra Sistemática
( ) Amostra Aleatória Simples ou Amostra por Conglomerado
( ) Amostra por Conglomerado
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 85
d) Um pesquisador de Educação Física seleciona aleatoriamente 10 quarteirões de um bairro de Fortaleza,
que é comporta por 755 quarteirões e pergunta então a todos os adultos residentes nos quarteirões
selecionados se são praticantes de atividades físicas. Que tipo de amostragem representa esse estudo?
( ) Amostra Aleatória Simples
( ) Amostra Aleatória Estratificada
( ) Amostra Sistemática
( ) Amostra por Conglomerado
5) Um Psicólogo deseja estudar as condições de vida dos moradores de um determinado bairro de
Fortaleza para com isso elaborar junto a Prefeitura de Fortaleza programas de inclusão social. Segundo a
prefeitura, o bairro é composto por 3.000 domicílios cadastrados. Então, com confiança e 95%:
a) E através de uma amostra aleatória simples (AAS) correspondente a 40% da população, qual será a
margem de erro?
b) Sabendo-se que 1.500 dos domicílios são residenciais, 1.050 são comerciais e o restante são
industriais, extraia uma amostra aleatória estratificada proporcional, com uma margem de erro de 3
pontos percentuais.
c) Se o psicólogo fizer uma amostra por conglomerado para duas categorias apenas (Comerciais e
Industriais), quantos deles serão pesquisados utilizando uma amostra sistemática em que o sistema
escolhido aleatoriamente foi domicílios pares? Qual a margem de erro para este tipo de amostragem?
d) Dentre as três técnicas (Amostra Aleatória Simples, Amostra Aleatória Estratificada e Amostra
Sistemática), qual delas trará um resultado mais eficaz à pesquisa?
Gabarito: a) 2,2%; b) 811; c) 2,58%
MEDIDAS DESCRITIVAS PARA DADOS NÃO AGRUPADOS:
6) Dentre as afirmativa abaixo, marque a incorreta:
(A) O Q2 é igual à mediana
(B) Os decis dividem a distribuição em décimos
(C) As separatrizes são estimativas de dispersão
(D) O P60 indica que 40% dos valores são maiores que ele.
(E) O Q4 coincide com o maior valor da amostra.
Gabarito: C
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 86
7) Baseado nos dados abaixo, que representa a temperatura (em graus celcius) de 11 cidades europeias na
noite do reveillon de 2014:
Lisboa Paris Mônaco Cannes Barcelona Londres Lyon Nice Avignon Lille Porto
2°C 3°C -5°C 6°C -7°C -2°C 0°C 8°C -3°C 5°C 10°C
Assim, determine e interprete:
a) A temperatura média das cidades.
b) A temperatura modal das cidades.
c) A temperatura mediana das cidades.
d) Desvio Padrão da temperatura das cidades.
e) Através do coeficiente de variação (CV), verifique se as temperaturas são homogêneas.
f) Faça um gráfico de linhas para os dados e identifique os dados discrepantes ou outliers ou dados
atípicos (ou dados fora do intervalo definido pelo desvio padrão encontrado), se houver.
Gabarito: a) 1,54°C; c) 2°C; d) 5,46°C; e) 354,54%; f) Cidades: Mônaco, Barcelona, Nice e Porto.
8) Para dados de observações das variáveis aleatórias y1, y2 e y3 provenientes de uma amostra foram
obtidos os gráficos de caixa (“box plot”) apresentados na figura que se segue:
9) Assinale a afirmativa verdadeira:
(A) Se uma instituição der um aumento de 8% nos salários de seus servidores, automaticamente o seu
coeficiente de variação eleva-se no mesmo percentual.
(B) Sempre que uma distribuição for simétrica e unimodal, média, moda e mediana são iguais.
(C) A vantagem da média aritmética é que ela é sempre maior que a moda.
(D) Dentre as desvantagens apresentadas pela média aritmética podemos afirmar que ela é afetada por
valores extremos e que a soma dos seus desvios é sempre maior que zero. Gabarito: B
Segundo estes gráficos, é possível afirmar que as
distribuições das variáveis aleatórias y1, y2 e y3 são
(aproximadamente), respectivamente:
(A) Assimétrica positiva, simétrica e assimétrica
positiva.
(B) Simétrica, assimétrica positiva e assimétrica
negativa.
(C) Simétrica, assimétrica negativa e assimétrica
positiva.
(D) Assimétrica negativa, assimétrica positiva e
simétrica.
(E) Assimétrica positiva, assimétrica negativa e
simétrica. Gabarito: B
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 87
10) Em um exame final de Matemática, o grau médio de um grupo de 150 alunos foi 7,8 e o desvio
padrão, 0,8. Em Bioestatística, entretanto, o grau médio final foi 7,3 e o desvio padrão, 0,76. Em que
disciplina foi maior a dispersão relativa? Por quê?
OBS: Dispersão absoluta (= desvio padrão), Dispersão relativa (= CV).
Gabarito: Bioestatística
11) Considere as informações apresentadas no gráfico de dispersão abaixo sobre o desempenho no
Sistema de Avaliação da Educação Básica (SAEB), no ano de 2005, da Rede Pública e Privada do Ensino
Médio.
Pelo gráfico de dispersão acima:
a) Qual (is) unidade (s) da Federação que apresentou o menor tempo (em anos) de conclusão de uma série
do ensino médio?
b) Qual é o tempo médio mais frequente para a conclusão de uma série do Ensino Médio?
c) Qual é a média da nota padronizada mais frequente para a conclusão de uma série do Ensino Médio?
d) Qual (is) estado (s) apresentou a menor média da nota padronizada nesta edição do SAEB?
e) E qual apresentou a maior?
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 88
CORRELAÇÃO E REGRESSÃO LINEAR
12) Segue abaixo o gráfico de dispersão construído através do Microsoft Excel que representa as despesas
com propaganda (R$ milhões) versus Vendas (R$ milhões), da indústria farmacêutica Xis, 2006 a 2008.
Fonte: MORETTIN, P (2003, 5ª edição)
E através do método dos mínimos quadrados (ou método de regressão linear), pergunta-se:
a) De acordo o gráfico 1, você considera que os dados seguem uma linearidade?
( ) Não. Por quê?_____________________________________________________________________
___________________________________________________________________________________
( ) Sim. Se sim, qual tipo?
( ) Positiva. Por quê?____________________________________________________________
( ) Negativa. Por quê?__________________________________________________________
b) Através do gráfico 2, encontre o valor do Coeficiente de Correlação (Rxy)?
c) Através da equação de previsão (y = a + bx) encontrada, faça uma previsão estatística de quanto à
empresa farmacêutica teria de vendas (R$ milhões), se investisse 7,5 milhões em propaganda.
d) Se a empresa diz que quer no próximo trimestre um faturamento de vendas no valor de 30 milhões de
reais, quanto ela terá que investir em propaganda?
e) Os 9,17% no gráfico 2 são explicados por qual variável?
Gráfico 2: Despesas com propaganda (R$ milhões)
versus Vendas (R$ milhões), indústria farmacêutica
Xis, 2006 a 2008
y = 1,3125 + 1,9583x
R2 = 0,9083
0
5
10
15
20
25
30
0 2 4 6 8 10 12 14
Despesas com Propaganda (R$ milhões)V
en
das (
R$
milh
ões)
Gráfico 1: Despesas com propaganda (R$ milhões)
versus Vendas (R$ milhões), indústria farmacêutica
Xis, 2006 a 2008
0
5
10
15
20
25
30
0 2 4 6 8 10 12 14
Despesas com Propaganda (R$ milhões)
Ven
das (
R$
milh
ões)
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 89
De acordo com a mesma variável dependente “vendas (R$ milhões)”, a empresa também obteve a
temperatura média (ºC) da região sul do Brasil, onde se encontram os maiores consumidores dos seus
medicamentos, como segue o gráfico 3:
Gráfico 3: Vendas (R$ milhões) da indústria
farmacêutica Xia versusa Temperatura média do
trimestre na região sul do Brasil, 2006 a 2008, Brasil.
y = 25,71 -1,1258x
R2 = 0,7666
5
10
15
20
25
30
0 5 10 15 20
Temperatura (ºC)
Ven
das (
R$
mil
hõ
es)
13) A indústria de automóveis FIAT do Brasil, fez um gráfico de dispersão com uso do Microsoft Excel
que representa os pesos (em toneladas) e as taxas de consumo de combustível por quilômetro rodado
(km/litro) para uma amostra de 250 automóveis de passeio em rodovias federais do Estado do Ceará no
mês de Outubro de 2014. O Estudo tem por objetivo fazer uma previsão de consumo de combustível por
quilômetro rodado com relação ao peso do automóvel, para com isso verificar se os próximos automóveis
a serem confeccionados devem ter o mesmo peso ou não e usar essa informação na sua campanha
publicitária no lançamento de novos modelos em Julho de 2015.
Gráfico 1: Peso (toneladas) e taxas de consumos de
combustíveis (Km/litro) de automóveis de passeio em
rodovias.
y = 18,945 - 6,4013x
R2 = 0,8588
5
6
7
8
9
10
11
12
13
1 1,2 1,4 1,6 1,8 2
Peso (toneladas)
Co
nsu
mo
(K
m/
litr
o)
f) Para se fazer a previsão de vendas (R$
milhões), qual das duas variáveis a empresa
deve levar mais em consideração: Despesas
com propaganda (R$ milhões) ou
Temperatura (ºC)? Por quê?
Solução:
b) 0,953;
c) Aproximadamente 16 milhões;
d) 14,65 milhões
Marque a alternativa correta:
13.1. Pelo gráfico de dispersão 1:
(a) Os dados seguem uma linearidade
diretamente proporcional ou positiva
(b) Os dados seguem uma linearidade
inversamente proporcional ou negativa
(c) A medida com que o peso dos
automóveis (toneladas) aumenta o
consumo (km/litro) permanece constante
(d) Os dados não seguem uma linearidade,
ou seja, é não linear
(e) A variável causa é o consumo (km/litro)
e a variável efeito é o peso (toneladas)
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 90
13.2. Pelos dados apresentados no gráfico de dispersão 1, o Coeficiente de Correlação de Pearson (Rxy) é
de quanto?
(a) -92,27%
(b) -92,47%
(c) -92,67%
(d) -92,77%
(e) Os dados não me permite obter tal medida
13.3. Através da reta de regressão (y = 18,945 – 6,4013x) encontrada, a previsão do consumo (km/litro) de
automóveis que tem 2 toneladas, será de:
(a) 6,14 km/litro
(b) 6,54 km/litro
(c) 7,14 km/litro
(d) 7,54 km/litro
(e) Os dados não me permite obter tal previsão de consumo (km/litro)
13.4. Pelos dados apresentados no gráfico de dispersão 1, o R2 = 0,8588 significa o quê?
(a) Que a força existente entre as variáveis peso e consumo é de 85,88%
(b) Que existe 85,88% de que a previsão do consumo (km/litro) não aconteça como o previsto
(c) Que 85,88% do consumo (km/litro) que ocorrerá conforme o previsto será por causa do peso
(toneladas) dos automóveis
(d) Que 85,88% dos automóveis devem ser mais leves para consumir menos combustíveis.
(e) Que 14,12% do consumo (km/litro) que ocorrerá conforme o previsto será por causa do peso
(toneladas) dos automóveis
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 91
ASSUNTO: DISTRIBUIÇÃO DE FREQUÊNCIAS
14) O histograma abaixo apresenta a distribuição das idades de pacientes atendidos por um nutricionista
de Fortaleza.
0
2
4
6
8
10
12
14
2|---4 4|---6 6|---8 8|---10 10|---12 12|---14 14|---16
Idade
Fre
qu
ên
cia
Portanto:
a) Qual a idade média dos pacientes?
b) Qual a idade modal dos pacientes?
c) Qual a idade mediana dos pacientes?
d) Pelas medidas descritivas calculadas, os dados são simétricos ou assimétricos?
e) De acordo a curtose do histograma acima, a curva é considerada mesocúrtica, platicúrtica ou
leptocúrtica?
f) Quantos pacientes têm idade entre 8 e 10 anos?
g) Quantos pacientes têm idade abaixo de 8 anos?
h) Quantos pacientes têm acima de 10 anos de idade?
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 92
15) Para as 3 distribuições abaixo foram calculadas a produção (em kg) de determinado produto
químico. O resultado foi o seguinte:
Distribuição A
Distribuição B
Distribuição C
Classes (kg) fi
Classes (kg) fi
Classes (kg) fi 2|--- 6 6
2|--- 6 6
2|--- 6 6
6|--- 10 12
6|--- 10 12
6|--- 10 30 10|--- 14 24
10|--- 14 24
10|--- 14 24
14|--- 18 12
14|--- 18 30
14|--- 18 12 18|--- 22 6
18|--- 22 6
18|--- 22 6
Média = 12kg
Média = 12,9kg
Média = 11,1kg Moda = 12kg
Moda = 16kg
Moda = 8kg
Mediana = 12kg
Mediana = 13,5kg
Mediana = 10,5kg Desvio Padrão = 4,42kg Desvio Padrão = 4,2kg Desvio Padrão = 4,2kg
Assim, construa o histograma para cada uma das distribuições e verifique se são simétricas ou
assimétricas (positivas ou à direita; ou negativas ou à esquerda) através do coeficiente de assimetria de
Pearson. Para esta alternativa utilize a seguinte notação:
S
ModaxCA
3
16) Observe o histograma abaixo:
Pelo histograma apresentado, marque a única afirmação correta:
(a) O gráfico de linha apresentado nas colunas do histograma é chamado de Ogiva de Galton
(b) O gráfico de linha apresentado nas colunas do histograma é chamado de Polígono de Frequência
(c) Os valores apresentados no histograma acima de cada coluna representa o ponto médio de cada classe
(d) A quantidade de pessoas pesquisadas foi de 600 indivíduos
(e) O gráfico acima é assimétrico
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 93
2ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA PARA AP2
PROBABILIDADE:
1) Os 240 cartões de um conjunto são numerados consecutivamente, de 1 a 240. Retirando-se ao acaso
um cartão desse conjunto, a probabilidade de se obter um cartão numerado com um múltiplo de 13 é?
Gabarito: 0,075
2) Quatro estudantes que chegaram atrasados no dia da prova deram a clássica desculpa do pneu furado.
Na prova de segunda chamada, o professor pediu que os estudantes identifiquem o pneu furado. Se não
houver realmente nenhum pneu furado e os estudantes responderem na base do “chute”, qual a
probabilidade de todos eles escolherem o mesmo pneu de um carro popular?
Gabarito: 1/64
3) Escolhe-se ao acaso dois números naturais (*) distintos de 1 a 100. Qual a probabilidade de que o
produto dos números escolhidos seja ímpar?
Gabarito: 0,2475
4) Dentre os números formados por três algarismos, qual é a probabilidade de encontrarmos um número
maior que 930?
Gabarito: 0,0767
5) A e B jogaram 120 partidas de xadrez e A ganhou 60 vezes, B ganhou 40 vezes e em 20 vezes ficaram
empatados. Se A e B concordam em jogar 3 partidas. Qual é a probabilidade de:
a) “A” ganhar todas as três
b) Duas partidas terminarem empatadas
c) A e B ganharem alternadamente
Gabarito: a) 0,125; b) 0,069; c) 0,134
6) Os 25.000 lugares de um estádio de futebol são numerados de 1 a 25.000. Qual a probabilidade de
escolher um lugar numerado com um número múltiplo de 14?
Gabarito: 0,0714
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 94
7) A seguinte tabela mostra a distribuição dos tipos de sangue na população para uma amostra de 1000
pessoas:
Fator/Tipo A B AB O Total
RH positivo 340 90 40 380 850
RH negativo 60 20 10 60 150
Total 400 110 50 440 1.000
c) Sabendo-se que a pessoa tem fator (RH negativo) qual é a probabilidade de que ela tenha o sangue tipo
B?
d) Sabendo-se que a pessoa tenha o sangue tipo A, qual a probabilidade de que ela tenha o fator RH
positivo?
e) Calcule a probabilidade de P(A B):
Gabarito: a) 0,05; b) 0,38; c) 0,133; d) 0,85; e) 0
8) Numa urna há 6 bolas azuis numeradas de 1 a 6 e cinco bolas verdes numeradas de 1 a 5. Extraindo ao
acaso uma bola, qual a probabilidade de sair uma bola azul ou com número ímpar?
Gabarito: 0,818
9) Sejam A e B eventos tais que P(A) = 0,2, P(B) = p, P(AB) = 0,6. Calcular p considerando A e B:
a) mutuamente exclusivos
b) Independentes
Gabarito: a) 0,4; b) 0,5
10) Em dois lançamentos sucessivos de uma moeda, sabe-se que pelo menos numa das vezes deu cara.
Qual a probabilidade de ter dado cara ambas vezes?
Gabarito: 0,3333
11) De uma classe onde há 15 rapazes e 35 moças serão escolhidos dois alunos ao acaso. Qual a
probabilidade de:
a) seres escolhidos duas moças?
b) serem escolhidos um rapaz e uma moça, em qualquer ordem?
Gabarito: a) 0,4857; b) 0,4285
12) Quais dos valores abaixo não pode ser probabilidade?
a) ( ) 0; b) ( ) 0,0001; c) ( ) -0,2; d) ( ) 3/2; e) ( ) 2/3; f) ( ) 2 ; g) ( ) 2,0
a) Determine a probabilidade de uma pessoa selecionada
ter o sangue tipo AB?
b) Determine a probabilidade de uma pessoa selecionada
ter o sangue tipo O e fator RH positivo
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 95
13) Fazendo os lançamentos sucessivos de um dado durante um jogo. Se cair a face 6, o jogo é
automaticamente parado. Qual a probabilidade que na terceira tentativa o jogo seja finalizado?
Gabarito: 0,116
14) Os alunos André e Bruno tentam, independente, solucionar um problema de Estatística. A
probabilidade de que André o resolva é 1/4 e a de Bruno é de 1/5. Qual a probabilidade de que:
a) Somente André resolva o problema
b) Somente Bruno resolva o problema
c) Exatamente um resolva o problema
d) Os dois resolvam o problema
e) O problema seja resolvido
f) O problema não seja resolvido
Gabarito: a)1/5; b)3/20; c)7/20; d)1/20; e)2/5; f) 3/5
15) Em uma locadora de carro, de cada 100 veículos 30 são de 4 portas e 20 têm motor a gasolina. Se de
cada 100 veículos, 5 são a gasolina e têm 4 portas, qual a probabilidade de carros na locadora que não são
a gasolina e nem tem 4 portas?
Gabarito: 0,55
16) Alguns atletas participam de um triathon (prova formada por 3 etapas consecutivas: natação, corrida e
ciclismo). A probabilidade de que um atleta escolhido ao acaso termine a primeira etapa (natação) é 4/7.
Para continuar na competição com a segunda etapa (corrida) o atleta precisa ter terminado a natação. Dos
atletas que terminam a primeira etapa, a probabilidade de que um deles, escolhidos ao acaso, termine a
segunda é ¾. Qual a probabilidade de que um atleta que iniciou a prova, e seja escolhido ao acaso,
termine a primeira e a segunda etapa?
Gabarito: 3/7
17) Na Copa do Mundo de 2014, no primeiro jogo de abertura o Brasil jogou contra a Croácia. No
primeiro tempo, a seleção brasileira cometeu 10 faltas, sendo que 3 foram cometidas por Neymar e outras
3 por Fred. No intervalo, os melhores lances foram reprisados, dentre os quais uma falta cometida pelo
Brasil, escolhida ao acaso. Qual a probabilidade de que a falta escolhida seja de Neymar ou de Fred?
Gabarito: 0,6
Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 96
DISTRIBUIÇÃO NORMAL:
18) Uma fábrica de carros sabe que os motores de sua fabricação têm duração normal com média de
150.000 Km e desvio padrão de 5.000 Km. Qual a probabilidade de que um carro, escolhido ao acaso, dos
fabricados por essa firma, tenha um motor que dure:
a) Menos de 170.000 Km:
b) Entre 140.000 Km e 165.000 Km?
Gabarito: a) 0,999; b) 0,9759
19) Suponha que o tempo necessário para que os usuários de uma biblioteca de uma empresa pública de
Fortaleza leva para encontrar uma determinada informação que deseja utilizando um novo sistema
computacional segue uma distribuição normal com média de 8 minutos e desvio padrão de 2 minutos.
Assim, calcule:
a) A probabilidade de um usuário qualquer levar mais de 8 minutos para encontrar a informação desejada.
b) Existe a possibilidade de um usuário levar menos de 1 minuto para encontrar a informação desejada?
Se sim, qual é essa probabilidade?
Gabarito: a) 0,5; b) 0,0001; b)
20) O tráfego aéreo (número de aterrissagens e decolagens) no Aeroporto Internacional de Fortaleza
durante a “hora de pico” é uma variável aleatória normal com média de 80 aviões por hora e desvio
padrão de 10 aviões por hora. Se a capacidade atual de tráfego aéreo no aeroporto é de 90 aviões por hora,
qual é a probabilidade de ocorrer congestionamento do tráfego aéreo?
Gabarito: