Notas de Aula Estatística para concursos

Notas de Aula de Estatística

Professor Kleison Freitas

2015.2

Notas de Aula Bioestatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 2

Informações Sobre a Disciplina

Apresentação

Cursando a disciplina de Estatística, o acadêmico poderá utilizar a ferramenta estatística na tomada de

decisões que tangem às funções empresariais ou acadêmicas, através de uma postura crítica e reflexiva.

Objetivos

1. Compreender o uso da estatística na prática acadêmica ou empresarial;

2. Desenvolver cálculos básicos da estatística e interpretá-los;

3. Utilizar a objetividade e a probabilidade como uma base nas tomadas de decisões;

4. Entender o uso e a importância da inferência e da previsão estatística em pesquisas de mercado, de

opinião e em consultorias empresariais.

Metodologias e Recursos

Utilizar as técnicas estatísticas através de aulas expositivas, práticas em laboratório de informática com

uso do Microsoft Excel e apresentação de cases pelo professor, possibilitando o discente na resolução de

problemas em sua área de atuação e formação.

Sistema de Avaliação Verificar no Portal da disciplina

Sistema de frequência

O aluno deve ter no mínimo 75% de frequência. Se o aluno tiver acima de 15 faltas estará reprovado por

falta, visto que cada aula são três faltas ou três presenças, respectivamente.

Bibliografia Recomendada

Básica:

TRIOLA, M. F. Introdução à Estatística. 11ª Edição. Rio de Janeiro. Livros Técnicos e Científicos,

MORETIN, L. G. Estatística básica: Probabilidade e Inferência. Volume único. São Paulo: Pearson,

LAPONNI, J.C. Estatística Usando o Excel. 4ª Edição. Editora Campus, 2005.

Complementar:

LEVIN; FOX; FORDE. Estatística para Ciências Humanas. 11ª Edição. São Paulo: Pearson, 2012.

Informações Sobre o Professor

Nome: Kleison de Paiva Freitas

E-mail: kfreitas@fanor.edu.br

Graduação

Curso: Estatística

Instituição: Universidade Federal do Ceará

Ano de Conclusão: 2004

Pós-Graduação

Curso: Mestrado em Logística e Pesquisa Operacional

Instituição: Universidade Federal do Ceará

Ano de Conclusão: 2009

Tema da dissertação: Alinhamento Estratégico na Cadeia Logística de Flores do Ceará – Um estudo de

caso no município de Ubajara

Experiência no Magistério

1. Professor da Universidade Federal do Ceará (UFC). Setor de estudo: Probabilidade e Estatística.

Departamento de Estatística e Matemática Aplicada (DEMA) do Centro de Ciências.

Cursos em que já ministrou/ministra aulas: Biblioteconomia, Ciências Atuariais, Ciências Biológicas,

Ciências Contábeis, Cinema, Computação, Engenharia de Alimentos, Engenharia Elétrica, Engenharia

Mecânica, Engenharia Metalúrgica, Engenharia de Pesca, Geografia, Química, Matemática e Publicidade

e Propaganda.

De Abril de 2006 a Janeiro de 2014.

2. Professor das Faculdades Nordeste (FANOR)/Devry Brasil. Cursos de graduação em que ministrou/ministra aulas: Administração, Ciências Contábeis, Construção de

Edifícios, Engenharia Ambiental, Engenharia Civil, Engenharia Elétrica, Engenharia de Produção,

Engenharia Química, Gestão Comercial, Logística, Marketing, Nutrição, Processos Gerenciais,

Psicologia, Recursos Humanos e Sistema de Informação.

Disciplinas: Estatística, Bioestatística e Pesquisa Operacional.

Desde Agosto de 2007.

Curso de pós-graduação em que ministrou/ministra aulas: MBA´s em Negócios.

Disciplina: Métodos Quantitativos e Pesquisa Operacional.

Desde Abril de 2010

Calculadoras Sugeridas e Obrigatórias

Modelo Casio fx 82 MS ou HP – Modelo: 12C

Programa Da Disciplina

CONTEÚDO

Nota de Aula 1 – Introdução Geral à Estatística: Conceito de Estatística; Aplicações; Origem;

Pesquisa de Mercado e de Opinião: Etapas, Objetivo, Briefing, Variáveis; Pesquisas Qualitativas,

Quantitativas e seus métodos;

Nota de Aula 2 - Amostragem: Inferência Estatística; População; Parâmetro; Amostra; Estimativa;

Margem de erro; Técnicas de amostragem; Amostras não probabilística; Amostras probabilísticas.

Nota de Aula 3 - Medidas descritivas para dados não agrupados: Medidas de tendência central:

Média aritmética simples; Moda; Mediana; Separatrizes, Box Plot; Medidas de dispersão: Amplitude

total; Variância; Desvio padrão; Coeficiente de variação.

Nota de Aula 4 – Correlação e Regressão Linear: Métodos de Previsão Estatística.

Nota de Aula 5 - Medidas descritivas para dados agrupados – Distribuição de Frequências: Tipos

de Frequências, Histograma, Polígono de Frequências, Ogiva de Galton, Assimetria, Curtose. Medidas

de tendência central e Dispersão para dados agrupados.

Nota de Aula 6 – Probabilidade: Conceitos Iniciais, Definição, Teorema da Soma e da Multiplicação

e Probabilidade Condicional.

Nota de Aula 7 – Tabelas Estatísticas e Gráficos através do Microsoft Excel: Tabelas; Elementos

fundamentais de uma tabela; Normas de construção de tabelas; Quadros; Banco de dados; Série

estatística; Característica de uma série estatística; Tipos de séries estatísticas; Gráficos; Elementos

essenciais dos gráficos; Tipos de gráficos; Estatísticas descritivas para dados não agrupados.

Nota de Aula 8 - Distribuição Normal de Probabilidade: Introdução breve à Probabilidade e Uso da

tabela da Normal.

Nota de Aula 1 – Introdução Geral à Estatística

1. ESTATÍSTICA: É uma ciência que utiliza teorias probabilísticas para explicar a frequência da

ocorrência de eventos, tendo como objetivo maior obter, organizar e analisar dados, a fim de estimar a

previsão de fenômenos, conforme o caso estudado.

De forma prática e didática, a estatística se resume na:

A estatística é uma ciência importante, útil e com um escopo abrangente de aplicação em

negócios, administração política física e ciências sociais, dentre outras áreas, quase ilimitado.

Na prática empresarial e industrial, a Estatística é uma ferramenta-chave e segura para entender

sistemas variáveis, controlar processos, sumarizar dados e tomar decisões baseados nos mesmos.

1.1. Aplicações: Algumas ciências utilizam à estatística como uma ferramenta própria, possuindo-a com

suas terminologias próprias, como sendo:

Bioestatística: É o planejamento, coleta, avaliação e interpretação de todos os dados obtidos em

pesquisa na área biológica, médica e áreas da saúde em geral;

Estatística Econômica ou Econometria: É um ramo da estatística direcionado para a análise de

fenômenos econômicos;

Estatística aplicada à Engenharia: É um ramo da estatística que estuda as suas aplicações no controle de

processos de produtos e serviços, no planejamento de novas estratégias de produção, nas vendas, no

controle de qualidade, em ensaios destrutivos e não destrutivos, com o objetivo de verificar a

porcentagem de peças não conforme as especificações ou a probabilidade de vida de equipamentos ou

peças, dentre outras;

Estatística Física: É o ramo da física que através da estatística analisa sistemas físicos de alta

complexidade, com elevado número de entidades constituintes, como os átomos, as moléculas, os íons,

entre outros;

Estatística aplicada à Contabilidade: A estatística é utilizada na área da contabilidade para comparar o

sexo de carteira de clientes, para comparar cargos de funcionários da empresa, onde se compara o custo

gasto colocando os mais importantes acima da pirâmide para comparação entre cargos similares, variação

e montagem na estrutura de cargos e salários, contagem de estoque, de imobilizado, perdas, juros, dentre

outros;

Coleta de Dados Tratamento dos

Apresentação dos

Resultados

Estatística Populacional: É o ramo da estatística relacionado à população e à demografia (área da

ciência geográfica que estuda a dinâmica populacional humana, ou seja, as taxas de natalidade,

mortalidade, imigração, emigração, densidade populacional, IDH, dentre outros);

Estatística Social: É o ramo da estatística que avalia fatores relativos à realidade social, econômica e

ambiental de um país e seu uso para a formulação e a avaliação de políticas públicas;

Estatística Comercial;

Estatística Psicológica;

Dentre outras áreas.

1.2. Origem:

A palavra estatística originou-se da expressão latina statisticum, que significa “Estado”, que

depois de várias significados, surgiu em alemão a palavra statistik que significa “análise de dados sobre o

Estado”. O Estado teve fundamental importância na origem da Estatística como ciência, pois

originalmente, as estatísticas eram colhidas para as finalidades relacionadas com o Estado, como os

recenseamentos, por exemplo. Como disciplina, só no século XIX é que se estruturou, mas já era

conhecida desde a antiguidade, há mais de 4 mil anos.

Nas decisões do dia-a-dia, o indivíduo há de forma direta ou indireta que se basear em dados

observados para isso. Por exemplo, ao decidir pelo seguro de um carro de uma determinada seguradora,

geralmente, este procura verificar se este seguro satisfaz as suas necessidades, ou seja, se o seu preço é

compatível com o seu orçamento, além de outras características.

Posteriormente, compara se dados deste seguro com o de outras seguradoras e, através de uma

análise processada internamente em sua mente, toma-se a decisão de adquiri-lo ou não.

Essa analogia não difere na realização das pesquisas científicas, que tem por objetivo responder

as indagações ou comprovar as hipóteses elaboradas pelo pesquisador. E para isso, é preciso,

inicialmente, coletar dados que possam fornecer informações relevantes para responder esses

questionamentos, mas para que os resultados da pesquisa sejam confiáveis, tanto a coleta de dados quanto

a sua análise devem ser feitas de forma criteriosa e objetiva. Para isso, o planejamento eficaz da

realização de uma pesquisa científica é necessário. Mas para isso é necessário entender o que realmente é

uma pesquisa.

1.3. Variáveis: São as características associadas ao objeto de estudo investigado ou do experimento

realizado. Podendo ser:

Qualitativas ou Categorizadas: São variáveis que exprimem qualidade do elemento investigado.

Podendo ser:

Nominal: Quando o dado se apresenta sob o aspecto qualitativo e não importa a ordem de

disposição delas, ou seja, não há uma hierarquia embutida.

Exemplos: Marca do Produto, Tipo de Produto, Área da Indústria, dentre outros.

Ordinal: Quando há uma hierarquia embutida, ou seja, um grau de relevância de um indivíduo

para outro mediante suas características.

Exemplos: Classe social, Grau de instrução, Desempenho (ótimo, bom, regular, ruim e péssimo),

Cargo dos funcionários na empresa, Grau de dor (forte, moderada ou leve), dentre outros.

Quantitativas ou Numéricas: São atributos resultantes de uma contagem ou mensuração. Podendo

Discreta: São todas as variáveis numéricas cujos valores se obtém a partir de procedimento de

contagem originado de um conjunto amostral finito ou enumerável. As variáveis discretas assumem

valores inteiros. Exemplos: Número de maquinários em uma indústria, Número de produtos

produzidos a cada hora por uma indústria, dentre outros.

Contínua: São variáveis numéricas cujos valores são obtidos por procedimento de mensuração (ou

não enumerável), de sorte que ao menos teoricamente, os resultados das medidas são capazes de

variações insensíveis ou contínuas. As variáveis contínuas podem assumir qualquer valor num

intervalo contínuo e são quantificadas em uma escala infinita de valores, por isso, diz-se que as

variáveis contínuas são muito informativas. Exemplos: Peso, Altura, Temperatura, Espessura,

Velocidade, Idade, Renda (em Reais), dentre outros.

Nota de Aula 2 – Amostragem

1. INTRODUÇÃO:

O profissional, na grande maioria das vezes, trabalha com limitações de tempo, escassez

financeira, de recursos humanos, de produtos, de materiais, dentre outros, impedindo-o de analisar afundo

o processo como um todo, mas de um lado não se faz necessário estudá-lo por inteiro, pois a Estatística

defende que apenas o estudo de uma parcela deste pode atender de forma eficaz às necessidades

desejadas.

Desta forma, quando se deseja estudar uma população (ou universo) específica, o pesquisador

tem duas formas possíveis de fazê-lo, ou de forma censitária, o que exige a observação de todos os

elementos que formam essa população, ou analisar apenas uma parcela que represente este universo, ou

seja, uma amostra.

A finalidade da amostragem é permitir fazer suposições, predições, generalizações (ou

inferências) acerca de características de uma população com base na análise de apenas alguns de seus

elementos. Essa técnica é amplamente utilizada em diversas situações do dia-a-dia das empresas e de

vários pesquisadores, de várias áreas profissionais, pois proporciona economia de recursos, de tempo,

rapidez nos resultados e maior controle. No caso das indústrias, a verificação da qualidade de seus

produtos, é um exemplo disto, pois é impossível analisar todos os produtos fabricados, pois muitos deles

após a análise não podem ser mais comercializados, desta forma, isto implica em prejuízo para a empresa,

portanto recorrer a um estudo de amostragem é o indicado. Outro exemplo, é analisar a opinião de

moradores de um determinado bairro de um município em que analisar todos além de alto custo, é

demorado e inacessível a todos.

Desta forma, conhecer e entender os procedimentos básicos aplicáveis à realização de estudos

estatísticos por inferência e por consequência utilizando uma amostra significativa, é uma condição si ne

qua non para qualquer profissional de qualquer área, que queira ter uma segurança e consistência nas

tomadas de decisões. Assim, para se inteirar do assunto, alguns conceitos iniciais são necessários:

2. CONCEITOS INICIAIS:

2.1. Inferência Estatística: É o processo de generalização do universo a partir de resultados particulares,

ou seja, consiste em obter e generalizar conclusões para o todo com base no particular, isso quer dizer que

a partir de amostras tiram-se conclusões para a população.

2.2. População (N): É o conjunto de todos os elementos que possuem em comum determinadas

características de interesse para uma pesquisa. Por exemplo: Pessoas, Maquinários, Soluções Químicas,

Produtos, dentre outros.

Quanto ao tamanho, a população pode ser classificada como finita ou infinita. Desta forma, as

finitas são as que possuem um tamanho limitado de elementos, em que é possível identificar do primeiro

até o último componente populacional, analogamente, as infinitas são aquelas cujo número de elementos

é ilimitado, ou seja, impossível de identificar o último indivíduo. Assim, a população, nesse caso é tão

grande que é dificultoso a sua análise com precisão.

Portanto, a escolha em analisar toda a população (censo) é uma decisão arbitrária do

pesquisador. Desta forma, os pesquisadores que optarem em utilizar o censo terão que verificar a seguinte

medida estatística conhecida como parâmetro.

2.3. Parâmetro: É a medida usada para descrever uma característica numérica da população em estudo e

para isso é necessário uma análise integral desta. Assim, como na prática este procedimento se torna

inviável, seu valor é quase sempre desconhecido, na maioria das vezes. Um exemplo prático de parâmetro

é a Idade média de todos os alunos de uma sala de aula, ou seja, a média () e a variância (2), são

exemplos de parâmetros.

Muitos pesquisadores defendem que o censo proporciona uma precisão incontestável nos

resultados estatísticos, pois todo o universo é analisado. No entanto, essa precisão pode ser contestada por

diversos fatores, dentre eles, as mudanças comportamentais dos componentes da população, nos casos em

que a pesquisa demanda período longo, ou por erros de coleta de dados, como informações inverídicas,

dentre outras. Então, para abster-se desses fatores que o censo pode causar de forma implícita e, muitas

das vezes, explícita, a utilização da amostragem é uma solução, pois a mesma permite que o pesquisador,

ao contrário do censo, cometa alguns “equívocos” previsíveis e aceitáveis ao estudo, mas para que esses

“equívocos” sejam toleráveis, faz-se necessário que o pesquisador entenda estatisticamente o que é

amostragem.

2.4. Amostra (n): É uma parcela significativa de uma população, ou seja, uma parte da população que a

representa estatisticamente.

Os pesquisadores que optarem em utilizar o processo de amostragem terão que utilizar as

seguintes medidas estatísticas conhecidas como estimativa e margem de erro.

2.5. Estimativa: É o valor numérico do estimador obtido com base nos resultados amostrais. Um

exemplo prático de estimativa é a Idade média de uma parte significativa dos alunos de uma sala de aula,

ou seja, a média amostral ( x ), a variância amostral (S²), são exemplos de estimadores.

2.6. Margem de Erro (e): Um estudo em que se optou na utilização da amostragem como método de

coleta de dados, sempre apresentará uma “falha” embutida nas suas análises, visto que não se analisou

todo o universo. Essa “falha” é conhecida como margem de erro (ou erro amostral), e tem uma relação

forte e inversamente proporcional com o tamanho da amostra e dos resultados que foram obtidos com a

pesquisa, ou seja, quanto maior for a quantidade de elementos pesquisados, menor a quantidade de erros

cometidos, ou seja, menor a margem de erro, mas em contra partida, maior o custo financeiro da mesma.

E vice-versa quando o tamanho amostral for menor.

Um exemplo prático de margem de erro é visto nas pesquisas eleitorais em que através de uma

amostragem de eleitores um determinado candidato aparece com um percentual de tantos por centos de

aceitação ao pleito, levando-se em consideração a margem de erro tolerável de tantos pontos percentuais

para mais ou para menos, ou seja, ele estará entre x% e y% dentro da margem de erro, isso quer dizer que,

se fosse analisada toda a população de eleitores, existem uma possibilidade de que no dia da eleição o

resultado percentual do candidato fique entre x% e y%.

A margem de erro é definida, na grande maioria das vezes, antes da coleta de dados, para evitar

assim retrabalho aos pesquisadores do estudo, pois caso a margem de erro fique muito alta (acima de 5%

para mais ou para menos), o retrabalho é inevitável ocasionando um custo a mais a quem encomendou a

pesquisa, e isso ocorre, na prática, por falta de planejamento amostral adequado ao estudo almejado.

Assim, para planejar um estudo estatístico com uso de amostragem faz-se necessário conhecer

dois processos básicos de amostragens, as amostras não probabilísticas e as probabilísticas.

3. TÉCNICAS DE AMOSTRAGEM:

3.1. Amostras Não Probabilísticas: Uma amostra é não probabilística (ou não casual ou não aleatória),

quando a probabilidade de seleção de cada unidade amostral da população é desconhecida. Nesse caso,

não se podem supor os resultados obtidos para o universo da população, visto que a amostra, por ser não

probabilística é não significativa. Desta forma, devem ser evitadas, porque além de não conhecer a

margem de erro e a confiabilidade, introduzem tendenciosidade (ou viés ou vício) na seleção das unidades

e estimação das mesmas, ou seja, distorcendo os dados do estudo para uma determinada direção.

As amostras não probabilísticas mais comuns são:

a) Amostras por Conveniência: As amostras por conveniência ocorrem quando as unidades a serem

analisadas estão mais acessíveis ao pesquisador de acordo com as conveniências sociais, econômicas, de

tempo, dentre outras. É um tipo de amostragem que é vantajosa por ser rápida, de baixo custo e de fácil

acessibilidade, mas não há nada que a credite estatisticamente.

b) Amostras por Cotas: São amostras em que se leva em conta a porcentagem de alguma(s)

característica(s) da população de origem.

c) Amostras por Julgamento ou Intencional: É uma forma de amostragem por conveniência na qual os

elementos populacionais são selecionados com base no julgamento arbitrário do pesquisador, ou seja, o

pesquisador identifica os elementos que corroborarão com o objetivo do seu estudo sem o risco de fugir

deste objetivo pré-definido, ou seja, não há uma escolha aleatória dos elementos pesquisados e sim o

contrário.

d) Amostras de Voluntários: Quando a pesquisa inclui alguns procedimentos perigosos, difíceis ou

dolorosos, desta forma a amostragem de sujeitos voluntários é a mais indicada, pois somente voluntários

estarão dispostos a participar. O problema deste tipo de amostragem é que ao ser colocado um anúncio

em uma rede social, por exemplo, para recrutar voluntários, só responderão pessoas muito especiais,

como por exemplo, pessoas aventureiras, ou as pessoas mais corajosas ou as mais motivadas. E muita das

vezes, este tipo de pessoa, nem faz parte do público-alvo do estudo.

3.2. Amostras Probabilísticas: Uma amostra é probabilística (ou ao acaso ou aleatória) quando cada

unidade amostral tem uma probabilidade conhecida e diferente de zero de ser escolhida frente a

população de origem, garantindo, se for realizada de forma correta, a isenção de vícios.

As técnicas de amostragem probabilística consistem em Amostra Aleatória Simples, Amostra

Aleatória Estratificada, Amostra sistemática e Amostra por Conglomerado:

a) Amostra Aleatória Simples (AAS): Selecionado por um processo ao qual a probabilidade de escolha

de todos os elementos é a mesma para todos, ou seja, a população de origem é consideração homogênea,

pois os seus elementos têm características parecidas entre si.

a1) Fórmula para determinação do tamanho da amostra com AAS:

Fonte: Barbetta (2001)

N = Tamanho da população

n = Tamanho da amostra

Se a confiança do estudo for de 95%, de acordo a tabela da Normal Padrão: ²

onde e = margem de erro.

Se a confiança for 96%: ²

575,20

Se a confiança for 99,9%: ²

OBS 1: O n0 representa a primeira aproximação do tamanho da amostra (n) caso não se conheça o N.

OBS 2: Caso conheça o N seja muito grande (tender para o infinito), não é necessário considerar o seu

tamanho exato. Neste caso, o cálculo da primeira aproximação (n0) já é suficiente para o cálculo.

OBS 3: Uma amostra aleatória simples pode ser selecionada escrevendo os elementos da população,

numerados de 1 a N, em N cartões, misturando-os numa urna e sorteando, “sem reposição”, n desses

cartões. Ou seja, a amostra consiste daqueles elementos da população, cujas identificações correspondem

aos números selecionados. Existirão )!(!

amostras possíveis diferentes de tamanho n. Nesse

caso, haverá dependência nas retiradas, pois o fato de não recolocar o elemento retirado afeta a

probabilidade de o elemento seguinte ser retirado.

OBS 4: A amostra aleatória simples pode ser também “com reposição” consiste em selecionar n

elementos um de cada vez, a partir dos elementos da população (N), repondo o elemento sorteado na

população antes do próximo sorteio. Com tal procedimento, qualquer elemento pode ser sorteado mais do

que uma vez. Nesse caso, haverá independência entre as retiradas, pois o fato de recolocar o elemento

retirado não afeta a probabilidade de o elemento seguinte ser retirado.

OBS 5: É bom lembrar que a partir de um determinado número da população a ser investigada, a amostra

não sofre variação considerável para mais ou para menos e, portanto, não adianta aumentar o número

amostral, imaginando que poderá haver mais resultados porque este não sofrerá alteração significativa.

Exemplo 1: Pensando em proporcionar ainda mais praticidade e comodidade para o aluno, a Devry

Brasil criou no ano 2014 o aplicativo Devry Aluno. Por meio dele, os estudantes da Fanor podem utilizar

seus smartphones IOS para solicitar alguns serviços realizados pelo Núcleo de Atendimento ao Aluno

(NAA) da faculdade e fazer tudo com mais agilidade, como por exemplo:

há nos cursos de engenharias do campus 2.356 alunos regularmente matriculados. Assim, qual deve ser a

quantidade de alunos a serem pesquisados pela faculdade, se for considerado:

a) Uma margem de erro de 4%, com uma confiança de 95%?

b) Se diminuirmos a margem de erro para 2%, qual será o tamanho da amostra (n), mantendo a mesma

confiança de 95%?

c) E se pesquisássemos 2000 clientes, qual seria a margem de erro, com a confiança de 95%?

Baseado nos itens anteriores:

d) Se para a faculdade o que importa é o resultado estatístico da pesquisa, qual das alternativas (“a”, “b”

e “c”) você aconselharia ela a utilizar? Por quê?

e) Se para a faculdade o que importa é o quanto ela vai pagar pela pesquisa, ou seja, o custo da mesma,

qual das alternativas (“a”, “b” e “c”) você aconselharia ela a utilizar? Por quê?

f) Se para a faculdade o que importa é o resultado estatístico da pesquisa e ao mesmo tempo com menor

custo, qual das alternativas (“a”, “b” e “c”) você aconselharia ela a utilizar? Por quê?

- Solicitar declaração de matrícula para fins diversos;

- Solicitar Histórico Escolar;

- Solicitar Revisão de Prova Final;

- Acompanhar e ser avisado sobre o vencimento de faturas, evitando

multas desnecessárias;

- Manter-se atualizado e ser alertado sobre os principais eventos do

Calendário acadêmico oficial de sua faculdade, dentre outros.

Visando a satisfação de seus clientes (ou atuais alunos), a Devry Brasil

deseja fazer melhorias no seu aplicativo e adequá-lo às necessidades

destes. Para isso, será feita uma pesquisa estatística entre os alunos dos

cursos de engenharias da Fanor, para verificar quais melhorias devem

ser implementadas. De acordo o último levantamento feito em Julho de

b) Amostra Aleatória Estratificada (AAE): Muitas vezes a população se divide em subpopulações (ou

estratos), sendo razoável supor que em cada estrato a variável de interesse analisada apresenta um

comportamento substancialmente diverso, ou seja, a população é considerada heterogênea, mas

homogêneo dentro de cada estrato.

Assim, deve-se adotar um tipo de amostragem que represente bem as diferentes características

dentro de cada um dos grupos, podendo ser, por exemplo, proporcional ao tamanho de cada um deles.

Exemplo 2: A prefeitura de Fortaleza implantou o sistema de bicicletas públicas chamado “Bicicletar”,

que visa oferecer à cidade uma opção de transporte sustentável e não poluente. Este projeto é operado

pela empresa Serttel e tem o apoio da Unimed Fortaleza. O Sistema é composto por estações inteligentes,

conectadas a uma central de operações via wireless, alimentadas por energia solar, distribuídas em pontos

estratégicos da cidade, onde os clientes cadastrados podem retirar uma bicicleta, utilizá-la em seus

trajetos e devolvê-la na mesma, ou em outra Estação.

Sendo assim, o nutricionista conseguiu levantar com a empresa operadora que a quantidade de ciclistas

que retiraram as bicicletas em no mínimo 3 vezes por semana na região estabelecida foi de 1.259, mas há

uma diferença de quantidade de usuários por estações, sendo que no mês passado, houve na Estação

Náutico 248 usuários, na Estação Aterro de Iracema com 189 usuários e na Estação Aterrinho da Praia de

Iracema com 822 usuários. Assim, qual deve ser a quantidade de usuários a serem pesquisados pela

empresa de consultoria, por estação e de forma proporcional, com uma margem de erro de 2,5% para

mais ou para menos e uma confiança de 98%, como sugeriu a prefeitura?

OBS: A pesquisa será feita através do aplicativo que o usuário tem acesso no ato que fez o cadastro para

aderir ao sistema.

Um nutricionista deseja fazer um estudo com o

objetivo de verificar a prevalência de usuários do

sistema que utilizam suplementos alimentares antes

e/ou após à prática do esporte. Os usuários definidos

por ele são os que retiraram as bicicletas nas estações

da Avenida Beira Mar. Assim, para participar do

estudo, foi definido ainda que os usuários devam ter

utilizados o sistema em no mínimo três vezes por

semana no turno manhã, tarde e/ou noite,

independente do gênero e idade, no último mês.

c) Amostra Sistemática (AS): Esse tipo de amostragem é uma variação da amostragem aleatória

simples, mas que exige que um sistema aleatoriamente seja definido.

Segue abaixo outros tipos de exemplos de amostras sistemáticas:

Exemplo1: Um engenheiro de controle da qualidade seleciona cada centésima fonte de computador que

passa em uma esteira transportadora.

Exemplo2: Um professor retira da população para compor a amostra os alunos aleatoriamente escolhidos

que possuem o algarismo “0” como último número da sua matrícula.

Exemplo3: Uma indústria tem 900 máquinas e o engenheiro de produção deseja uma amostra formada por

50 máquinas para uma pesquisa. Pode-se, neste caso, usar o seguinte procedimento: Como 900/50 = 18,

escolhe-se por sorteio casual um número de 01 a 18, o qual indicaria o primeiro elemento sorteado para a

amostra, os demais elementos seriam periodicamente considerados de 18 em 18. Assim, se supor que o

número sorteado fosse 4, a amostra seria: 4ª máquina, 22ª máquina, 40ª máquina, 58ª máquina, 76ª

máquina, dentre outros. Ao final, pode-se voltar ao início para completar a quantidade amostral a

pesquisar.

d) Amostra por Conglomerado: Primeiramente, na amostra por conglomerado, a população-alvo é

dividida em estratos mutuamente exclusivos e coletivamente exaustivos. Após isso, reduz-se,

arbitrariamente, a quantidade de estratos a serem analisados. Após isso, sorteiam-se quais grupos serão

pesquisados e por fim, define-se qual o tipo de amostra probabilística deverá ser utilizada (AAS, AAE ou

AS). Podendo também, se assim o pesquisador desejar, utilizar o censo nos grupos selecionados para

coleta de dados. Com isso, a amostragem por conglomerado tem duas grandes vantagens: a viabilidade e

o baixo custo, ou seja, a que traz o menor custo-benefício, se comparado às outras técnicas probabilísticas

disponíveis.

Exemplo 3: Considere que um pesquisador deseja avaliar através de uma pesquisa por amostragem a

opinião dos alunos de engenharia da Fanor sobre a sua satisfação com relação à coordenação do seu

curso. Assim, levantou-se a população de alunos por cada curso da referida área, como segue abaixo:

Cursos Quantidade Populacional

Engenharia Ambiental e Sanitária 469

Engenharia Civil 403

Engenharia de Produção 739

Engenharia Elétrica 593

Engenharia Mecânica 440

Engenharia Química 198

Total 2.842 Fonte: Coordenação dos Cursos de Engenharia - Fanor (2014)

Se esse pesquisador fizer uma amostra por conglomerado para 3 cursos, quantos alunos serão

pesquisados, com uma margem de erro de 2% e uma confiança de 95%, levando em consideração um dos

métodos de amostragem (AAS, AAE ou AS)?

Nota de Aula 3 – Medidas Descritivas para dados

não agrupados

1. INTRODUÇÃO:

Para a maioria das pessoas, estatística significa descrever números da forma mais entendível

possível, como por exemplo, as taxas mensais de desemprego no Brasil após a alta do dólar no mercado

atual, o índice de falências empresariais ocorridas no Brasil de 2010 para cá, a proporção de mulheres que

assumem cargos de CEO no mercado brasileiro nos últimos dois anos, a proporção de eleitores que

votarão em um determinado candidato nas próximas eleições, o nível de satisfação de clientes de uma

determinada loja de conveniência de um determinado Shopping Center, dentre outros.

Todos esses exemplos representam descrições estatísticas de um conjunto de dados coletados

sobre algum fenômeno e para isso não é preciso usar a inferência estatística ainda, pois o objetivo aqui é

apenas descrever estatisticamente essas informações.

A descrição estatística dos dados verifica a localização central e a variabilidade desses dados

através de médias, medianas, modas, variâncias, desvios-padrão e coeficientes de variação. Ainda, há

métodos ilustrativos que possibilitam uma melhor interpretação deles, como os gráficos, dos quais pode-

se citar os histogramas, os diagramas de ramo-e-folhas, os diagramas de pontos, os gráficos de caixa

(box-blot), dentre outros.

A descrição dos dados se dá em duas formas, tanto para dados agrupados em classes como para

dados não agrupados. Esta nota de aula verificará apenas os dados não agrupados, e está divido em

medidas de tendência central e medidas de dispersão.

2. MEDIDAS DE TENDÊNCIA CENTRAL

As chamadas medidas de tendência central têm por objetivo verificar o centro da distribuição dos

dados, ou seja, verificar através de medidas específicas o centro do conjunto de dados. As medidas de

tendência central mais utilizada são a média aritmética, a moda e a mediana. As usadas com menos

frequências são as médias geométricas, harmônicas, quadráticas, cúbicas e biquadráticas.

As outras medidas de posição usadas com menos intensidade são as separatrizes, que englobam:

a própria mediana através dos decis, dos quartis e dos percentis.

Para início desta nota de aula, a primeira medida de tendência central a ser analisada é a média

aritmética simples, como segue:

2.1. Média Aritmética Simples: É definida como sendo o quociente da soma de todos os valores de um

conjunto de dados pelo total de valores deste conjunto.

Média amostral Média populacional

i 1 , Onde

xi = Valores da variável

n = Número de valores da amostra

N = Número de valores da população

OBS1: A média por ser influenciada por todos os valores do conjunto de dados é considerada como uma

medida sensível, ao contrário das outras medidas de tendência central existentes.

Propriedades:

a) A média de um grupo de dados sempre será única, independente da sua localização;

b) A soma algébrica dos desvios tomados em relação à média é sempre nula:

c) O resultado de multiplicar a média pela quantidade “n” de valores da variável x é igual a soma dos “n”

valores da variável;

d) Somando-se ou subtraindo-se uma constante “c” (valor invariável) a todos os valores de uma variável,

a média do conjunto ficará aumentada ou diminuída dessa constante, respectivamente, de forma análoga,

se multiplicar ou dividir, a média ficará multiplicada ou dividida, respectivamente.

Falando ainda de média, há a média aparada, que não é tão utilizada na prática estatística pois a

mesma tende a manipular o resultado final desta medida de tendência central, mas vale a pena conhecer o

que é este tipo de medida como segue no próximo tópico.

2.1.1. Média Aparada: Uma média aparada é calculada aparando-se certa porcentagem dos maiores ou

menores valores do conjunto de dados. Por exemplo, para calcular a média aparada de 10%, deve-se

eliminar 10% dos valores maiores e 10% dos valores menores, e então calcular a média dos valores que

sobraram. Podendo-se usar de forma arbitrária a porcentagem a ser retirada da amostra para um novo

cálculo. Ao contrário da média aritmética, a média aparada é uma medida resistente, pois não sofre

influência dos valores extremos.

A segunda medida de tendência central a analisar é a moda, como segue no próximo tópico.

2.2. Moda (Mo): Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê

bastante. Na Estatística, como o próprio nome sugere, a Moda é aquele elemento que mais vezes aparece

no conjunto de dados. Não é muito sensato dizer que a moda é uma medida de tendência central, pois

nem sempre ela representa o centro do conjunto de dados, visto que ela identifica o(s) valor(es) que

ocorre(m) com maior frequência, podendo ser único, se existir, como pode também não existir. Nesse

caso, é mais correto chamá-la de medida de posição.

Quando dois valores ocorrem com a mesma frequência máxima, cada um deles é uma moda.

Das diferentes medidas de tendência central, a moda é a única medida que pode ser usada com

dados em nível nominal de mensuração, conforme o exemplo 1:

Exemplo 1: Um estudo sobre tempos de reação de pessoas em um teste foi composto por 30 canhotos, 50

destros e 20 ambidestros. Embora não possamos tomar a média numérica dessas características, podemos

afirmar que a moda é destro, que é a característica com maior frequência.

Quando no conjunto há apenas um valor que se repete além dos demais de forma máxima,

chama-se este conjunto de unimodal, bem como se tiver dois valores que se repete além dos demais, de

forma máxima e na mesma quantidade é bimodal, assim acima de 2 modas é multimodal. Se o conjunto

de dados não tiver nenhum valor que se repete além dos demais de forma máxima, o conjunto de dados é

amodal.

OBS2: Se o conjunto de dados tiver os valores: 1, 1, 2, 2, 3, 3, o conjunto é multimodal, pois todos os

valores se repetem 2 vezes, ou seja, a frequência é a mesma para todos. Agora se for: 1, 2, 3, 4, é amodal,

pois não há repetição de valores.

E se for: 10, 10, 10, 10 é unimodal, pois o valor 10 é o que ocorre com maior frequencia.

A terceira medida de tendência central a ser analisada é a mediana. Muitos confundem a mediana

com a média, mas são medidas completamente diferente, tanto na sua forma de encontrar quanto na sua

interpretação, como segue no próximo tópico.

2.3. Mediana (Md):

A mediana é uma medida de tendência central que ocupa a posição central dos dados

observados, quando estes estão ordenados em ordem crescente ou decrescente (rol), tendo uma mudança

na sua realização se a quantidade de dados é par ou ímpar.

Sendo assim, se o conjunto de dados (n) é constituído por um número ímpar de dados, a mediana

é o valor que fica no centro dos dados ordenados que pode ser encontrado através da seguinte notação:

Pelo exemplo 2, como segue, é possível verificar como é a realização da mediana para uma

quantidade ímpar de valores.

Exemplo 2: Notas de alunos de uma determinada disciplina: 8 7 3 4 8

Solução:

Ordenar os dados: 3 4 7 8 8

Mediana (Md) =

Interpretação:

Agora, se o conjunto de dados (n) é constituído por um número par de dados, a mediana é a

média aritmética dos dois valores que ficam na posição central dos dados ordenados que pode ser

encontrado através da seguinte notação:

Pelo exemplo 3, como segue, é possível verificar como é a realização da mediana para uma

quantidade par de valores.

Exemplo 3: Notas de alunos de uma determinada disciplina: 8 7 3 4 8 9

Solução:

Ordenar os dados: 3 4 7 8 8 9

Mediana (Md) =

Interpretação:

A mediana tem como vantagem a não afetação por valores extremos, ao contrário da média

aritmética, por isso a mediana é uma medida mais “robusta” (forte) que a média, pois na média qualquer

alteração nos dados, modifica-se o valor da média, e a mediana nem sempre isso acontece.

Depois de verificado as três medidas de tendência central que são utilizadas com maior

freqüência, dentre as três, a média aritmética é a medida mais usada na tomada de decisão, pois a mesma

é encontrada com uso de todos os valores do conjunto de dados, ao passo que a mediana e a moda não

utiliza todos eles, e sim alguns ou nenhum dos valores (amodal), apresentado resultados “distorcidos” da

realidade dos dados apresentados.

Quando se descreve os dados, além das medidas de tendência central, é necessário analisar a

variabilidade dos dados, pois através destas pode-se tirar algumas conclusões mais consistentes na tomada

de decisão. Assim, o próximo item mostrar as medidas de variabilidades mais utilizadas no campo

estatístico.

3. MEDIDAS DE DISPERSÃO:

Ao se fazer a descrição dos dados, além de verificar o centro da distribuição deles através das

medidas de tendência central é prescindível verificar também se os dados se comportam de forma

homogênea ou heterogênea, e isso será possível através das medidas de dispersão.

Essa verificação é importante, pois através delas podem-se tomar decisões mais consistentes e

eficazes. Um exemplo disso eram que os bancos, há uns anos atrás, costumavam exigir que os clientes

formassem filas separados para os diversos guinches, mas atualmente passaram adotar a fila única. O

motivo dessa modificação foi que o tempo médio de espera era o mesmo para ambos os formatos de filas,

não afetando a eficiência dos caixas, mas a adoção de fila única ocorreu ao fato de os clientes preferirem

tempos de espera com menor variação. Assim, é que milhares de bancos efetuaram essa modificação que

resultou em uma variação menor (e clientes mais satisfeitos), mesmo que a média de tempo de

atendimento não tenha sido afetada.

Com isso, pode-se concluir que as medidas de dispersão avaliam a variabilidade dos dados com

relação à sua média. As medidas de dispersão mais usadas são a amplitude total, variância, desvio padrão

e coeficiente de variação.

A primeira medida de dispersão a ser analisada nesta nota de aula será amplitude total, como

segue no tópico seguinte.

3.1. Amplitude total (At):

A amplitude total é a medida mais simples de variação que existe, e é obtida através da diferença

entre o maior e o menor dos valores da série. A ressalva para esta medida simples de dispersão é que por

não levar em consideração os valores intermediários, essa medida não possibilitará analisar como os

dados estão distribuídos e/ou concentrados, visto que só é feita uma análise dos extremos deste.

At = Vmáx – Vmin

Pelo exemplo 4 é possível verificar que se não for levado em consideração os valores em si,

pode-se tomar conclusões bastante equivocadas, pois amplitude total é a mesma para ambas as turmas,

mas os valores de cada uma delas são visivelmente diferentes.

Exemplo 4: Notas de provas de duas turmas de 9 alunos

Turma 1: 1, 1, 1, 2, 2, 2, 3, 3, 3

At = 3 - 1 = 2

Turma 2: 8, 8, 8, 9, 9, 9, 10, 10, 10

At = 10 - 8 = 2

O que se pode concluir com essa medida, além de verificar a distância no maior para o menor

valor, é que quanto mais longa é essa distância, mais heterogêneos são os dados e caso contrário, mais

homogêneos.

Agora, a amplitude total, será utilizada de forma necessária e obrigatória na construção de uma

distribuição de frequências, que será vista mais adiante.

Assim, a segunda medida de dispersão que realmente pode ser utilizada para análise é a

variância, como segue.

3.2. Variância (S²):

A variância é uma medida de dispersão que mensura a variabilidade dos dados, através da soma

do quadrado dos desvios pela quantidade de valores da variável menos um (n-1) no caso amostral, e por N

se for populacional.

Pela propriedade “b” da média aritmética, verifica-se que a soma dos desvios será sempre zero,

fazendo com que o pesquisador suponha que não há desvio (ou variabilidade) no conjunto de dados

analisado, mas se todos os valores não forem iguais, haverá variabilidade sim, mas mesmo assim sempre

somando os desvios o resultado será zero. Nesse caso, para que esse problema seja contornando, eleva-se

os desvios ao quadrado, ocasionando a não anulação dos mesmos.

Com isso, a notação matemática da variância é:

Variância amostral Variância populacional

, onde

xi = Valores da variável xi = Valores da variável

X = Média aritmética simples µ = Média populacional

n = Número de valores da amostra N = Número de valores da população

Propriedades:

a) A variância de uma constante “c” é igual a zero;

b) Ao somar ou subtrair uma mesma constante “c” a todos os valores do conjunto de dados, a variância

não ficará alterada;

c) Se multiplicar ou dividir cada valor do conjunto de dados por uma mesma constante “c”, a variância

ficará multiplicada ou dividida, respectivamente, pela constante ao quadrado (c²).

Mas, mesmo elevando os desvios ao quadrado, surge o seguinte questionamento: E se ao invés

de elevar cada desvio ao quadrado e depois somar, não seria melhor utilizar o módulo, em que os desvios

resultam em valores absolutos e depois utilizar a soma deles? Ou seja, assim:

? E após isso,

dividir tudo pela quantidade de valores (n), obtendo aí o desvio médio dado pela seguinte notação

A resposta para essa pergunta é não, pois o módulo fará com que os desvios negativos fiquem

positivos, apresentando uma realidade distorcida dos dados.

Ao elevar ao quadrado, todos os desvios são elevados ao quadrado e não somente alguns,

portanto, o melhor a ser utilizado é a variância porque ela dá certeza absoluta que as amostras são

diferentes. Já o módulo não dá essa informação de variabilidade, ao contrário, ele nos dá evidências de

que as amostras são iguais. Por exemplo: Suponha que uma turma fez uma prova e a média desta foi 7,0,

e um aluno tirou 8,0, ou seja, a dispersão foi de 1 ponto para mais (8 - 7 = 1 ponto). Se outro aluno tirar

6,0, a dispersão é 1 ponto para menos (6 – 7 = -1 ponto). Se usar o módulo, a dispersão ao invés de ser -1

e 1, será 1 e 1, mostrando que não há dispersão das notas dos dois alunos, ou seja, ao invés de um aluno

ter tirado a nota 6 e o outro a nota 8, ambos tiraram a nota 8, pois o desvio com o uso do módulo foi 1

ponto para mais.

Mas mesmo a variância sendo considerada a ideal para tomar decisões sobre a variabilidade dos

dados, a mesma apresenta um grande problema com unidade de medida dos dados que a compõem, pois

estes serão elevados ao quadrado, dificultando assim a sua interpretação, pois se a unidade de medida for

em metro, será metro quadrado, se for em centímetro, ficará centímetro ao quadrado e assim por diante.

Para contornar esse problema e verificar os dados com a unidade de medida original, aconselha-

se tirar a raiz quadrada da variância. Nesse caso, chega-se a outra medida de dispersão, o chamado desvio

padrão, mas antes de analisar esta medida de dispersão, faz-se necessário se atentar para as seguintes

observações:

OBS3: Para um melhor entendimento da divisão por “n-1” na fórmula da variância e não por “n” apenas, é

que a variância trabalha encima de “n-1” valores, pois se subtende que pelo menos um valor é a própria

média (não havendo dispersão de um valor, nesse caso). Portanto, a variabilidade será entre “n-1” valores

e não “n”.

Por exemplo, sejam os seguintes valores: 1, 2 e 3, a média é “2”, ou seja, um valor é a própria média, mas

dois valores não, ou seja, 2 = n-1 = 3-1 = 2. Mas isso não tem 100% de certeza não, pois tem casos em

que a média não é igual ao conjunto de valores.

OBS4: Observe que no cálculo da variância amostral (S²), deve-se dividir a soma dos quadrados dos

desvios por “n-1”e não por “n” apenas. Isso se dá, pois através de estudos que serão vistos em Estimação

de Parâmetros, a variância amostral (S²) tende a estimar de forma distorcida a variância populacional (²)

se for dividido apenas por “n”, então para que S² seja um estimador não viciado ou não tendencioso de ²

deve-se dividir por “n-1”.

Há uma demonstração que prova que E(S²) = ², mostrando que a esperança da variância amostral é igual

a variância populacional, ou seja, a variância amostral com divisão da sua fórmula por “n-1” representa

de forma eficaz e inferencial a variância populacional, sem ter analisado a população em si.

OBS5: Quando o tamanho da amostral é suficientemente grande (é usual considerar um valor de n

superior a 30) não há praticamente diferença entre S² e ², assim pode-se dividir por “n-1” ou por “n”,

respectivamente que o resultado será aproximadamente o mesmo, pois, para comprovação S²/² será

aproximadamente 1, não fazendo diferença nenhuma nos cálculos. Agora, se n for menor que 30, essa

divisão será bem menor que 1 mostrando que não é a mesma coisa, devendo assim não deixar de dividir

por n-1 se for o amostral e por n se for o populacional.

Após, as observações anteriores, faz-se necessário verificar a medida de dispersão realmente

utilizada na tomada de decisão, o desvio padrão.

3.3. Desvio Padrão (S):

O desvio padrão é uma medida de variabilidade dos valores com relação à média deles, mas ao

contrário da variância, esta medida utiliza-se à mesma unidade de medida dos dados originais, por isso

esta é utilizada com maior frequência que a variância (S²). A notação matemática do desvio padrão, que é

a raiz quadrada da variância é como segue:

A última medida de dispersão a ser analisada é o coeficiente de variação, como segue no

próximo tópico.

3.4. Coeficiente de Variação de Pearson (CV):

O coeficiente de variação é uma medida de dispersão relativa que avalia o quanto o desvio

padrão representa com relação à média aritmética de um conjunto de dados. Assim, quanto menor for o

CV, mais homogêneo será o conjunto de dados, ou seja, com menor variabilidade entre eles, caso

contrário haverá uma grande variabilidade. Assim, a notação do coeficiente de variação é a seguinte:

Mas para afirmar se os dados são ou não passíveis de grandes ou pequenas variabilidades,

adota-se o ponto de corte percentual como segue:

Se CV < 50% (Há baixa dispersão entre os dados, ou seja, eles são homogêneos)

Se CV 50% (Há alta dispersão entre os dados, ou seja, eles são heterogêneos)

Anexo 1 – Manual da Calculadora Cientifica e HP

Financeira

Manual para cálculo de Estatística descritiva, Correlação e Regressão Linear

Calculadora Científica – Modelo: Casio fx 82MS

1. Média e Desvio Padrão:

Colocar no modo estatístico: Clicar em Mode 2 (Sd)

Digitar os seguintes números 1, 2 e 3 assim:

Encontrar o valor da média:

Clicar em Shift 2 (S-VAR) 1 = (Sairá o valor da média igual a 2)

Encontrar o valor do desvio padrão:

Clicar em Shift 2 (S-VAR) 3 = (Sairá o valor do desvio padrão igual a 1)

Manual para cálculo de Estatística descritiva, Correlação e Regressão Linear

Calculadora Financeira HP – Modelo: 12C

1. Média e Desvio Padrão:

Limpar a memória: f CLx

Adicionar valores (1, 2, 3) na memória da calculadora assim: 1 + 2 + 3 +

Calcular a média: g 0

Calcular o desvio padrão: g (ponto)

Anexo 2 – Estatística Descritiva com uso do Microsoft Excel

1º Passo: Abrir o Excel

Ao abrir o Excel: Digitar o banco de dados abaixo referente ao Salário Mínimo dos funcionários de

uma determinada Empresa.

Funcionário

Nº. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Salário (S.M*) 6 7 11 4 13 8 7 15 9 11 10 16 5 13 8 19 8 12

Funcionário

Nº. 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

Salário (S.M*) 14 16 5 17 9 11 9 10 6 15 7 12 23 7 17 9 14 19

2º Passo: Estatística Descritiva de todas as variáveis quantitativas: Salário

Acionar a Ferramenta “Análise de Dados”:

Clicar no Botão Office:

Clicar em Opções do Excel Suplementos Em gerenciar, clicar em Ir Clicar em Ferramentas de

Análise OK: A função ficará acionada na função Dados.

Dados Análise de Dados Estatística descritiva:

Em Intervalo de entrada: Selecionar todas as células da variável quantitativa em estudo, inclusive o título

da variável (Pode selecionar tudo de uma vez só) Selecionar Rótulos (OBS: Como selecionou o título,

é necessário clicar em rótulo);

Em Opções de Saída: Clicar em “Nova Planilha” e “Resumo estatístico”.

O resultado está na tabela abaixo com as suas respectivas interpretações abaixo:

Saída do Excel:

Salário (S.M)

Média 11,12

Erro padrão 0,76

Mediana 10,165

Modo 7,0 e 9,0

Desvio padrão 4,58

Variância da amostra 21,04

Curtose -0,014

Assimetria 0,65

Intervalo 19,3

Mínimo 4

Máximo 23,3

Soma 400,4

Contagem 36 Interpretação da variável salário:

Média: A média salarial dos 36 funcionários é de 11,12 s.m.

Mediana: 50% dos funcionários ganham abaixo de 10,16 s.m e 50% acima.

Moda: Os salários que mais ocorreu entre os funcionários foi 7 e 9 s.m.

Desvio Padrão: (11,12 4,6), ou seja, a maioria dos funcionários ganham entre 6,52 s.m e 15,72 s.m.

Mínimo e Máximo: O menor salário entre os 36 funcionários é 4 s.m e o maior é 23,3 s.m.

Soma: A empresa gasta 400,4 s.m no pagamento de seus 36 funcionários, ou seja, 400,4 s.m é a folha de

pagamentos da empresa.

4. SEPARATRIZES:

Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um

conjunto de dados, pois são afetados, de forma exagerada por valores extremos, ou seja, são medidas

sensíveis. Então analisar outras medidas de posição, com as separatrizes, se faz necessário, assim segue as

medidas:

Quartis: Dividem os valores ordenados (em ordem crescente ou decrescente) da variável em quatro

partes iguais através de três quartis (Q1, Q2 e Q3), ou seja, (25% abaixo, 50% abaixo e acima, 25%

acima).

Exemplo 5: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas,

calcule os quartis:

2; 5; 6; 9; 10; 13; 15

OBS: O conjunto de dados é ÍMPAR (n = 7), assim:

2 5 6 9 10 13 13

Q1 = P25

Md = Q2 = P50 = D5

Q3 = P75

Solução:

valorn

11 = 5 anos

25% das pessoas tem idade abaixo de 5 anos e 75% acima.

valorn

12 = 9 anos

50% pessoas tem idade abaixo de 50% anos e 3 acima.

valorn

133 = Pega-se o 6º valor = 13 anos

75% tem idade abaixo de 13 anos e 25% acima.

calcule e interprete os quartis:

1; 1; 2; 3; 5; 5; 6; 7; 9; 9

OBS: O conjunto de dados é PAR (n = 10), mas ao dividir os dados ao meio sobram 5 valores para um

lado e 5 para o outro, ou seja, ao dividir fica uma quantidade ímpar para um lado e para o outro, assim:

Quantidade Ímpar de Valores

1 1 2 3 5

5 6 7 9 9

Q1 = P25

(5 + 5)/2 = 5

Q3 = P75

Quartis: Ao dividir o conjunto de dados em duas partes iguais, ficam 5 valores para um lado e 5 valores

para o outro, ou seja, uma quantidade ímpar para um lado e uma quantidade ímpar para o outro, assim,

para calcular o quartil 1 e quartil 3, deve-se utilizar a fórmula para o caso ímpar e não par, assim:

valorn

calcule e interprete os quartis:

1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13

OBS: O conjunto de dados é PAR (n = 12). Ao dividir os dados ao meio ficam 6 valores para um lado e 6

para o outro, ou seja, fica uma quantidade par para um lado e uma quantidade par para o outro, assim, as

fórmulas devem ser, nesse caso as pares, assim:

Quantidade Par de Valores

1 1 2 3 5 5

6 7 9 9 10 13

Q1 = (2+3)/2 = 2,5

Q2 = (5 + 6)/2 = 5,5

Q3 = (9+9)/2 = 9

Quartis: Ao dividir o conjunto de dados em duas partes iguais, ficam 6 valores para um lado e 6 valores

para o outro, ou seja, uma quantidade par para um lado e uma quantidade par para o outro, assim, para

calcular o quartil 1 e quartil 3, deve-se utilizar a fórmula para o caso par, assim:

Q anos

Decil: Divide o conjunto de dados em 10 partes iguais:

D1 = 10%, D2 = 20%,.., D10 = 100%

Decil 1 = Representa os 10% menores e os 90% maiores

Percentil: Divide a série em 100 partes iguais:

P1 = 1%, P2 = 2%,.., P100 = 100%

Assim:

Md = Q2 = D5 = P50

Q1 = P25

Q3 = P75

5. BOX-PLOT

Em 1977, John Tukey publicou uma proposta que posteriormente foi reconhecida como sendo

um eficiente método para mostrar cinco números que sumarizam qualquer conjunto de dados. O gráfico

proposto é chamado de Box-Plot (também conhecido como Box and whisker plot).

O Box-Plot é um tipo de representação gráfica conveniente para revelar tendências centrais,

dispersão, distribuição dos dados e a presença de outliers (dados discrepantes). A construção de um Box-

plot exige o “resumo dos cinco números”, ou seja, o menor valor do conjunto de dados, o primeiro

quartil, o segundo quartil, o terceiro quartil e o maior valor do conjunto de dados.

5.1. Interpretação do Box-Plot: O gráfico de Box-plot interpreta-se da seguinte forma:

• A caixa (Box) propriamente contém a metade 50% dos dados (Q2 = Mediana). O limite superior da caixa

indica o percentil de 75% dos dados (Q3) e o limite inferior da caixa indica o percentil de 25% (Q1). A

distância entre esses dois quantis (Q3 – Q1) é conhecida como amplitude interquartílica.

• A linha na caixa indica o valor de mediana (Q2) dos dados.

• Se a linha mediana dentro da caixa não é equidistante (ter a mesma distância) dos extremos, diz-se então

que os dados são assimétricos (à direita ou à esquerda).

• Os extremos do gráfico indicam o valor mínimo e máximo, a menos que valores outliers estejam

presentes.

• Os pontos fora do gráfico são então outliers ou suspeitos de serem outliers.

5.2. Vantagens do Box-plot:

• Mostra graficamente a posição central dos dados (mediana) e a tendência;

• Mostra a forma de simetria ou assimetria dos dados;

• Ao contrário de muitas outras formas de mostrar os dados, o Box-plot mostra os outliers.

• Utilizando o Box-plot para cada variável categórica de lado a lado no mesmo gráfico, pode-se

facilmente comparar os dados.

5.3. Desvantagem do Box-Plot:

Em alguns casos a quantidade de outliers pelo intervalo definido pelo desvio padrão e pelo Box-

Plot se diferem, pois pelo intervalo definido pelo desvio padrão os dados não são modificados em

momento algum, já com o Box-Plot o cálculo do limite inferior junto com o intervalo interquartílico não

mostra bem a realidade dos dados, mas este tipo de gráfico é bastante utilizado para verificar o formato da

curva dos dados.

Para contornar esta situção a idéia é utilizar os Box-Plot para verificar o formato da curva e o

intervalo definido pelo desvio padrão para encontrar os dados discrepantes. Neste caso, o uso do Box-Plot

deve ser em último caso para evitar interpretações erradas.

Segue um exemplo prático para ilustrar isso:

Através desse gráfico, podemos comparar as distribuições de idade entre cada profissão, quanto a

posição e dispersão. Temos por exemplo, que advogados têm a menor média de idade de escolha da

profissão. Médicos têm a maior idade, seguidos pelos dentistas. Temos, entretanto, que a variação de

idade para os dentistas é muito maior do que para os médicos e advogados. Provavelmente detectaríamos

diferença significativa entre as médias de idade de advogados e médicos, e advogados e dentistas, mas

devido a grande variação de idades para dentistas, talvez não se detecte diferença entre médicos e

dentistas. Temos também a ocorrência de uma observação discrepante (outlier) para idade de dentistas:

enquanto 50% dos dentistas estão entre aproximadamente 29 e 34 anos, houve um dentista com idade

próxima de 20.

Além disso, enquanto a distribuição de idade para advogados parece razoavelmente simétrica em

torno da mediana, para médicos e dentistas parece haver uma concentração maior (moda) para idades

maiores, indicando provavelmente uma distribuição assimétrica à direita, isso quer dizer que a moda ≤

mediana ≤ média. Para visualizar melhor é só virar cada gráfico para o lado direito e veremos que o lado

maior está do lado direito (assimetria à direita).

Portanto, sugere-se o uso do “resumo dos cinco números” de um conjunto de dados para a

construção do Box-Plot:

1 – Valor mínimo (E1): Menor valor do conjunto de dados. Em algumas vezes pode ser considerado um

outlier (dado discrepante);

2 – Primeiro Quartil (Q1): É um valor que deixa um quarto dos valores abaixo e três quartos acima dele

(25% abaixo e 75% acima);

3 – Segundo Quartil ou Mediana (Q2 ou Md): É um valor que divide na metade o conjunto de dados (50%

abaixo e 50% acima);

4 – Terceiro Quartil (Q3): É um valor que deixa três quartos dos dados abaixo e um quarto acima dele

(75% abaixo e 25% acima);

5 – Valor máximo (En): Maior extremo do conjunto de dados.

Exercício 8: Segue abaixo as notas de 26 alunos de uma disciplina de Bioestatística, construa um gráfico

Box-Plot:

2,8 3,3 4,5 5,0 5,3 6,0 6,0 7,0 7,0 7,3

7,3 7,5 7,8 7,8 8,3 8,5 8,8 9,0 9,0 9,0

9,0 9,3 9,6 9,8 10,0 10,0

Desenhe o Box-Plot e interprete-o:

Nota de Aula 4 – Correlação e Regressão com uso

do Microsoft Excel

1. INTRODUÇÃO:

Diversas decisões tomadas no dia-a-dia das empresas envolvem informações do tipo: volume de

vendas previsto para subsidiar a área de produção, demanda estimada de produtos que indique se e quais

equipamentos devem ser comprados, ou qual o lucro projetado para justificar determinados investimentos

(CORRAR, 2009).

Ainda de acordo o autor, dado um ambiente organizacional em contínua transformação, o que se

procura é reduzir incertezas. Desta forma, os gestores demandam informações que os auxiliem a escolher,

hoje, as que parecem ser as melhores alternativas sobre eventos que ocorrerão no futuro. Assim, permitir

a antecipação de cenários futuros é a proposta dos modelos quantitativos de previsão, pois estes envolvem

dados históricos e podem ser de dois tipos: por séries causais ou séries temporais.

Corrar (2009) defende que os modelos causais estudam os fatores que tem influencia sobre a

variável a ser estimada, e a análise de regressão é um exemplo desse tipo de modelo. Já os modelos de

séries temporais, por sua vez, envolvem projeções baseadas, exclusivamente, nas observações do passado

da variável que se deseja estudar.

Assim, esta nota de aula trata de modelos de séries temporais e de sua utilidade para as diversas

áreas do conhecimento, mas para isso faz-se necessário relembrar os assuntos de Correlação de Pearson e

Regressão Linear Simples.

2. CORRELAÇÃO LINEAR:

O estudo de correlação mostra uma forma de medir quanto e de que maneira se relacionam duas

variáveis quantitativas por meio do qual se pode analisar a relação existente das variáveis em estudo, ou

seja, qual alteração deve esperar em uma das variáveis, como consequência de alterações sofridas pela

outra variável, ou seja, uma relação de causa de efeito.

Para entendimento dessa relação entre duas variáveis, segue alguns exemplos práticos: o frio está

para o setor farmacêutico, assim como o dia das mães está para o comércio, pois as vendas de

medicamentos não controlados, como analgésicos, antigripais e vitaminas, disparam. Outro exemplo é o

faturamento das empresas de energia elétrica é diretamente influenciada pela temperatura, especialmente

no verão, onde a demanda por energia aumenta, pelo uso de ar condicionado e ventiladores, fazendo com

que as empresas produtoras de energia aumentem seus lucros. De forma similar, par ao consumo de água,

desta forma em Fortaleza, por exemplo, nos meses que ocorre o verão (dezembro até meados de março),

o consumo de água nas residências aumenta de forma significativa.

A priori essa relação pode ser verificada com auxílio de um gráfico de dispersão bidimensional,

que será definido como eixo x, a variável causa e y, a variável efeito, como segue:

2.1. Interpretação subjetiva do gráfico de dispersão:

Correlação Positiva entre x e y

Forte correlação Positiva entre x e y

Correlação Positiva perfeita entre x e y

Assim, a importância de tal determinação decorre do fato de que a presença de uma correlação

pode conduzir-nos a um método para estimar a variável y (efeito) utilizando a variável x (causa).

2.2. Outliers:

Os conhecidos como outliers, são os pontos discrepantes, ou as observações extremas que não

são condizentes com o restante da massa de dados, conforme o Gráfico abaixo. As causas mais prováveis

da ocorrência de outliers pode ser o registro incorreto dos dados, algum defeito no instrumento de

medição utilizado, dentre outros. Caso isso ocorra, o outlier deve ser se possível, corrigido, em extremo

caso eliminado. Desta forma, deve-se dar a devida atenção à causa de tais anomalias, pois esses dados

discrepantes podem ser úteis para descobrir a causa dessa ocorrência.

Como as conclusões tiradas de gráficos de dispersão tendem a ser subjetivas, necessita-se de

métodos mais precisos e objetivos. Então se utiliza o coeficiente de correlação linear de Pearson para

detectar padrões lineares.

2.3. Coeficiente de Correlação de Pearson ( xyR ):

O Coeficiente de Correlação de Pearson mede o grau de associação entre as duas variáveis

analisadas, podendo ser fraca ou forte. Para isso, a notação matemática que permite verificar essa

associação é a que segue:

Assim, o valor de Rxy deve pertencer ao intervalo -1 Rxy 1, e a sua interpretação é a seguinte:

Outlier

0,00 Rxy 0,69 = dependência fraca +

0,70 Rxy 1,00 = dependência forte +

-0,69 Rxy 0,00 = dependência fraca -

-0,70 Rxy -1,00 = dependência forte -

Contudo, em geral, uma correlação forte não é sinônima de uma relação causa-efeito entre as

amostras ou variáveis. Há situações em que um coeficiente de correlação próximo de um ou de um menos

um não significa que a maioria dos pares de valores esteja contida em uma reta (será visto em regressão

linear). Desta forma, o simples conhecimento do coeficiente de correlação não é suficiente devido a

anomalias na dispersão dos dados, por isso é recomendada a construção do gráfico de dispersão das

amostras para melhor compreender o resultado, pois em alguns casos, a relação de causa e efeito pode ser

provocada por um ou mais fatores ocultos, uma variável não considerada na análise.

Por exemplo, suponha que o número de vendas diárias de um jornal e a produção diária de ovos

tenha uma forte correlação positiva. Não se pode afirmar que o aumento do número de jornais vendidos

resulte no aumento da produção de ovos. Para compreender a forte correlação positiva, devem-se

procurar fatores ocultos, por exemplo, o aumento de riqueza da população que resulta em aumento de

demanda dos dois produtos ao mesmo tempo, jornais e ovos.

Conhecer a relação significativa entre as variáveis é de extrema importância para que assim o

investigador possa realizar suas previsões com mais segurança, assim, faz-se necessário conhecer o que é

regressão linear.

3. REGRESSÃO LINEAR SIMPLES:

Como visto anteriormente, o coeficiente de correlação (Rxy) apenas não mede com segurança a

relação causa-efeito entre duas variáveis, apesar de essa relação poder estar presente. Por exemplo, uma

correlação fortemente positiva entre as variáveis x e y não autoriza afirmar que variações da variável X

provocam variações na Y, ou vice-versa. Entretanto, em uma regressão linear, a relação causa e efeito

deve ser definida no início da análise.

Em muitas pesquisas estatísticas, o objetivo principal é estabelecer relações que possibilitem

predizer uma ou mais variáveis em termos de outras. Assim, é que se fazem estudos para predizer os

seguintes exemplos:

Vendas futuras de um produto em função do seu preço;

Diretamente proporcional: x y

Inversamente proporcional: x y

Perda de peso de uma pessoa em decorrência do número de semanas que se submete a uma dieta de

800 calorias-dia;

Despesa de uma família com médico e com remédio em função de sua renda;

Consumo per capita de certos alimentos em função do seu valor nutritivo e do gasto com propaganda

na TV;

Taxa de juros em função da inflação;

Salário em função da escolaridade do trabalhador.

Assim, no estudo de regressão linear simples, utilizam-se duas amostras (ou duas variáveis) e se

objetiva em analisar a reta que melhor explica a relação entre essas duas variáveis, tendo previamente

definido a variável independente (ou resposta ou causa) e a variável dependente (ou preditora ou efeito).

A origem do termo “regressão” remonta a Francis Galton (1822 a 1911), que por volta de 1855,

investigava relações entre características antropométricas de sucessivas gerações. Uma de suas

constatações era de que “cada peculiaridade de um homem é transmitida aos seus descendentes, mas, em

média, numa intensidade menor”. Por exemplo: embora pais com baixa estatura tendem a ter filhos

também com baixa estatura, estes têm altura média do que a altura média de seus pais. O mesmo ocorre,

mas em direção contrária, com pais com estatura alta. A esse fenômeno de a altura dos pais mover-se em

direção à altura média de todos os homens ele chamou de regressão.

O termo regressão remete ao passado, ou seja, para se fazer previsões estatísticas é necessário

conhecer o passado (ou histórico) das variáveis de causa e efeito da empresa. Caso a empresa não possua

estes dados e quiser fazer previsões, a saída é buscar dados do seu concorrente.

3.1. Equação da reta:

Uma vez que o comportamento entre as variáveis tende para uma relação linear, o próximo passo

consiste em buscar determinar a respectiva equação de regressão linear simples.

Toda reta pode ser representada pela seguinte expressão matemática y = a + bx, onde x e y são as

variáveis e a e b, seus respectivos coeficientes. Sendo:

a = Coeficiente linear ou ponto que intercepta o eixo vertical y, ou seja, valor de y para x = 0

b = Coeficiente angular ou Declividade da reta, ou seja, a variação de y por unidade de variação de x.

O gráfico da equação y = a + bx é uma linha reta. Na prática, os valores de a e b costumam ser

estimados. Para obter os valores dos coeficientes a e b, recorremos ao Cálculo Diferencial. Sendo:

xyxxya

3.2. Coeficiente de determinação (R²):

Indica a proporção da variação total da variável dependente que é explicada pela variação da

variável independente, ou seja, mede a confiabilidade da previsão a ser realizada. Assim, quanto maior

for o R², melhor será o poder de explicação da reta de regressão.

A diferença do coeficiente de correlação (Rxy) para o coeficiente de determinação (R²), é que o

primeiro mede a força da relação linear entre as variáveis, enquanto que o R² mede a explicação da reta de

regressão.

Dessa maneira, para apreciar o ajuste de uma reta, é melhor utilizar o coeficiente de

determinação que mede o sucesso da regressão em explicar y, ou seja, o R² verifica quantos por centos de

y pode ser explicado por x, o restante (%) são os sem explicação.

4. SÉRIES TEMPORAIS:

Segundo Corrar (2009), uma série temporal é um conjunto de observações sequenciais de

determinada variável, expressas numericamente, obtidas em períodos regulares de tempo. Assim, a

análise de séries temporais baseia-se na premissa segundo a qual os fatores que influenciaram o

comportamento dos dados no passado continuam influenciando seus movimentos futuros.

Desta forma, os dados coletados de uma série temporal podem sofrer a influência de diversos

fatores, como: alterações macroeconômicas, mudanças no padrão tecnológico vigente, variações nas

condições de natureza, ou mesmo podem ser afetados por fenômenos imprevisíveis, e por consequência

disso, os dados podem sofrer alguma tendência (sazonalidade, por exemplo), que consiste em mudanças

nos dados, fazendo-os serem no formato linear (diretamente ou inversamente proporcional), ou no

formato de uma curva, como por exemplo, a exponencial, polinomial, potencial, dentre outras (Quadro 1).

Tipo de Função Equação Original Equação

Linearizada

Variável

Linear y = a + b.x y = a + b.x x y

Exponencial y = a.ebx

ln y = ln a + b.x x ln y

Potência y = a.xb ln y = ln a + b.ln x ln x ln y

Logarítmica y = a + b.ln x y = a + b.ln x ln x y Quadro 1: Principais transformações lineares

Fonte: Adaptado de Corrar (2009)

Exercício 1: O objetivo do diretor de vendas do Grupo Pão de Açúcar é analisar a relação entre o

investimento realizado em propaganda e as vendas (ambas em milhões de Reais) de uma loja da rede no

Município de Fortaleza, para realizar projeções de vendas baseados em futuros investimentos em

propaganda nos próximos anos. O Quadro a seguir registra o histórico de 10 anos com os valores de

propaganda e vendas em milhões de reais:

Ano Propaganda

(R$ milhões)

Vendas

(R$ milhões)

2005 30 430

2006 21 335

2007 35 520

2008 42 490

2009 37 470

2010 20 210

2011 8 195

2012 17 270

2013 35 400

2014 25 480

Assim, seguem os passos no Microsoft Excel:

CORRELAÇÃO:

1º Passo:

Abrir o arquivo que encontra o banco de dados no Excel ou digitar os valores da tabela acima;

Identificar quais são as variáveis quantitativas e qual delas será x (causa) e y (Efeito);

2º Passo: Construção do gráfico de dispersão entre x e y:

Selecionar as variáveis Propaganda (x) e Vendas (y) Inserir gráfico escolher gráfico de

dispersão xy (ou Ponto) Avançar Clicar em “OK”.

Formatação do gráfico:

Apagar a legenda

Título: Clique com botão direto do mouse dentro do gráfico: Opções do gráfico Em Título: digitar

“Relação entre Propaganda (R$ milhões) versus Vendas (R$ milhões) de uma determinada empresa x”.

Formatar os eixos “x” e “y”, sendo Propaganda (R$ milhões) e Vendas (R$ milhões),

respectivamente;

Letra Times New Roman, tamanho 11;

Verificar se os dados do gráfico seguem uma tendência linear. Se sim, calcula-se a correlação linear

entre as variáveis x e y;

2º Passo: Fazer estudo de correlação linear entre x e y:

Procedimento 1: Com a ferramenta FUNÇÃO:

Posicione o cursor em um local abaixo do banco de dados para visualizar o resultado;

Clicar em Inserir função Em selecionar uma categoria, escolha “Estatística” Selecione uma

função: CORREL OK Em matriz 1: selecione todos os dados da variável x, em matriz 2: selecione

todos os dados da variável y, inclusive com o título. Caso esqueça de selecionar o título, o programa

calcula a correlação mesmo assim.

Com isso sairá o resultado da correlação entre x e y = 0,8594 = 85,94%

Procedimento 2: Com a FERRAMENTA ANÁLISE DE DADOS:

Clicar em Inserir

Ferramentas Análise de dados Clicar na função Correlação OK Em intervalo de entrada,

selecionar tudo que compõe o banco de dados, inclusive o título Clicar também em “Rótulos na

primeira linha”, pois caso não clique, o programa não conseguirá ler o banco de dados, pois você está

informando a ele que a primeira linha do banco de dados são as variáveis Agrupados por coluna

Clicar em Nova saída OK. O resultado será:

PARA A REGRESSÃO LINEAR SIMPLES:

Procedimento 1: Através da ferramenta FUNÇÃO:

Para encontrar o valor de “a” (o intercepto), que é representado pela fórmula:

CUIDADO para definir qual variável é x (independente) e qual é y (dependente), pois contrário o

resultado de a e b será errado.

Clique em Inserir função INTERCEPÇÃO Selecione os dados da variável y, inclusive o título,

e os dados da variável y. Resultará: a = 117,07

Propaganda (R$ milhões) Vendas (R$ milhões)

Propaganda (R$ milhões) 1

Vendas (R$ milhões) 0,859366125 1

xyxxya

Para encontrar o valor de “b” (o coeficiente angular, ou seja a inclinação da reta), que é representado

pela fórmula:

Clique em Inserir função INCLINAÇÃO Selecione os dados da variável y, inclusive o título, e

os dados da variável y. Resultará: b = 9,74

Portanto a equação de previsão será: y = a + bx, ou seja, y = 117,07 + 9,74x, que representa:

Vendas = 117,07 + 9,74. Propaganda

Procedimento 2: Através da ferramenta ANÁLISE DE DADOS:

Clique em Ferramentas Análise de dados Regressão OK Selecione separadamente a

variável y (vendas) e a variável x (propaganda), inclusive os títulos Clique em rótulos Nova

planilha. O que iremos utilizar segue abaixo:

Estatística de regressão

R múltiplo 0,859366125

R-Quadrado 0,738510137

R-quadrado ajustado 0,705823904

Erro padrão 65,17342989

Observações 10

Onde o Coeficiente de determinação (R²) é igual a 0,7385, ou seja, 73,85% dos dados estão sendo

explicados pela equação y = 117,07 + 9,74x, e 0,2614 = 26,14% não estão sendo explicados pela reta

encontrada.

Coeficientes

Interseção 117,0701581

Propaganda (R$ milhões) 9,738142292

O quadro acima mostra os coeficientes a e b da reta de regressão.

Procedimento 3: Através do GRÁFICO DE DISPERSÃO:

Clique em algum dos pontos do gráfico com o botão direito: Clicar em Adicionar linha de tendência

Clicar em Linear Ir em Opções: Clicar em exibir equação do gráfico e Exibir valor de R² no

gráfico, e sairá a equação y = 117,07 + 9,7381x e R² = 0,7385. Assim:

Relação entre Propaganda (R$ milhões) versus Vendas

(R$ milhões) de uma determinada empresa X

y = 9,7381x + 117,07

R2 = 0,7385

0 10 20 30 40 50

Propaganda (R$ milhões)

Fazendo previsões matemáticas com uso da equação de regressão linear:

Para investimento em propaganda no valore de 20 milhões, 40 milhões e 50 milhões de reais, assim:

Assim, a projeção para cada um dos investimentos será de:

Nota de Aula 5 – Medidas Descritivas para dados

agrupados

1. INTRODUÇÃO:

Quando o conjunto de dados consiste de um grande número de dados, indica-se alocá-los numa

tabela de distribuição de frequência. Distribuição de frequência é uma série de dados brutos agrupados

em uma tabela de acordo com o número de elementos distintos da série. Esta tabela resume as classes de

valores, juntamente com as suas respectivas contagens (ou frequências), servindo de base para as

representações gráficas.

A organização dos dados agrupados traz vantagens na visualização global, apesar de eliminar

alguns detalhes, pois há uma pequena perda de informação.

2. PASSOS PARA CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS POR

INTERVALO:

1º. Passo: Encontrar a amplitude total dos dados (Diferença entre o maior valor e o menor do conjunto de

dados):

At = V máx – V min

2º. Passo: Determinar o número de classes (k):

k = 5, se n 25

k = n , se n > 25 ou de acordo a Regra de Sturges: k = 1+3,22 log (n)

OBS1: Para n 50, ambos os métodos de determinação de k são iguais, acima disso, é aconselhável

utilizar a Regra de Sturges, pois os dados ficam mais concentrados.

OBS2: Arredondar para mais o número de k independente do valor ocorrido.

Podemos notar que os valores encontrados não são nem de perto parecidos quando o valor de n é

grande, por isso deve ser registrado que na organização e construção de uma tabela de distribuição de

frequências, o que deve prevalecer é o bom senso e não só e simplesmente o resultado encontrado, usando

os modelos matemáticos disposto no 2º passo.

A Regra de Sturges tende a apontar um número de classes com mais eficiência que a da raiz

quadrada.

Uma regra de bolso diz que as tabelas de distribuição de frequências devem ter de 5 a 20 classes,

pois abaixo de 5 está se perdendo informação nas classes e acima de 30 o nível de detalhamento torna-se

exagerado e pouco eficaz.

Número de Classes (k)

Pela: k = n

Pela: k = 1+3,22 log (n)

30 6 6

35 6 6

40 7 7

50 8 7

60 8 7

70 9 7

80 9 8

90 10 8

100 10 8

110 11 8 Quadro 1: Número de classes de acordo do tamanho de “n”

3º. Passo: Amplitude do intervalo de classe (h):

4º. Passo: Identificar os limites de classe: São os extremos de cada classe.

li = limite inferior, i = 1,...,k

ls = limite superior, s = 1,...,k

3. TIPOS DE DISTRIBUIÇÃO DE FREQUÊNCIAS:

Cada distribuição de frequência dependerá do tipo de variável que se está analisando:

a) Variável quantitativa discreta: É aquela que só pode assumir valores obtidos por contagem. Nesse

caso usa-se uma distribuição de frequência por pontos, pois os dados serão tratados de maneira

individualizada.

b) Variável quantitativa contínua: É aquela que pode assumir valores quaisquer num intervalo de

observação, representam mensurações. Nesse caso usa-se uma distribuição de frequências com classes,

pois os dados serão agrupados para facilitar análises futuras.

4. TIPOS DE FREQUÊNCIAS:

4.1. Frequência simples ou absoluta (fi): É o número de observações correspondente à classe i (i =

1,...,k), ou seja,

4.2. Frequência relativa fi (%): A frequência relativa representa a proporção de observações de uma

classe em relação ao número total de observações. Trata-se, portanto, de um número relativo. Para

calcular a frequência relativa basta dividir a frequência absoluta do valor individual (ou da classe) pelo

numero total de observações, ou seja, então:

100(%) xn

, onde

n = Tamanho da amostra

1(%) ou 100%

4.3. Frequência acumulada absoluta “abaixo de” (Fi): Representa o número de observações

existentes abaixo do limite superior de cada classe. A expressão “abaixo de” refere-se ao fato de que as

frequências a serem acumuladas correspondem aos valores menores ou anteriores à classe cuja frequência

acumulada se deseja obter, incluindo no cálculo a frequência da classe. Toda vez que se procura saber

quantas observações existem até um determinado valor individual (ou uma determinada classe), recorre-

se à frequência acumulada “abaixo de”.

4.4. Frequência acumulada absoluta “acima de” (Fi): Representa o número de observações existentes

acima do limite inferior de cada classe. Para se obter a frequência acumulada “acima de” basta somar a

frequência das classes posteriores.

4.5. Frequência acumulada relativa “abaixo de” ou “acima de” (Fi(%)): É a frequência acumulada do

valor ou da classe, dividida pelo tamanho total da amostra (n).

100(%)

i 100(%)

Exercício 1: Segue abaixo o peso (kg) de 30 adolescentes de um consultório de nutrição de um famoso

nutricionista de Fortaleza. Os dados foram obtidos dos prontuários destes pacientes que foram atendidos

no mês passado:

42 46 47 48 49 49 50 51 51 51

51 52 54 54 54 55 55 55 56 56

57 57 57 57 58 61 61 64 65 68

a) Construa uma distribuição de frequências com classes para os dados acima (Utilize duas casas

decimais após a vírgula)

Responda:

b) Quantos pacientes tem o peso entre 50,68 e 55,02kg?

Solução:

c) Quantos pacientes tem o peso acima de 50,68kg?

Solução:

d) Quantos pacientes tem o peso abaixo de 63,7kg?

Solução:

e) Quantos pacientes tem o peso (%) 63,7 e 68,04kg?

Solução:

f) Quantos pacientes tem o peso acima de 42kg?

Solução:

5. REPRESENTAÇÃO GRÁFICA DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS:

5.1. Histograma: É formado por um conjunto de retângulos justapostos que têm as bases sobre um eixo

horizontal, com centro no ponto médio. As bases coincidem com as amplitudes das classes. Se todos os

intervalos tiverem a mesma amplitude, as alturas serão proporcionais às frequências das classes,

tomando-se então as alturas numericamente iguais a essas frequências, ou seja, largura do retângulo é

igual à amplitude da classe (h) e altura do retângulo é igual à sua frequência simples (fi).

O objetivo de utilizar um histograma é tentar perceber algo pelo formato da distribuição da

população de dados da qual a amostra foi obtida.

Figura 1: Modelo de um histograma

5.2. Polígono* de frequências: Consideramos um gráfico de linha que une os pontos médios das bases

superiores dos retângulos do histograma (pontos médios das classes).

Figura 2: Modelo de um Polígono de frequência

5.3. Medidas de Assimetria:

Ao montar uma distribuição de frequências, pode-se construir um gráfico que a represente, ou

seja, um histograma. Através do histograma é possível verificar se os dados tem um comportamento de

simetria, em que a média é igual a moda e que ambas são iguais a mediana. Caso contrário, a existência

da simetria não ocorre mais, ou seja, a distribuição dos dados é considerada assimétrica, podendo ser

positiva ou assimétrica à direita (Moda ≤ Mediana ≤ Média), ou negativa ou assimétrica à esquerda

(Média ≤ Mediana ≤ Moda).

O que determina a assimetria é a posição da moda?, bom, se a moda for no início isso mostra que

a assimetria ficará do lado direito, se a moda ficar no final, isso mostra que a assimetria será do lado

esquerdo. Portanto, se a moda for menor que todas as outras medidas, ela estará no início (assimétrica à

direita), e se ela for maior que todas as medidas serão assimétricas à esquerda.

A assimetria, como o próprio nome insinua, significa desvio ou afastamento da simetria, ou seja,

em outras palavras, assimetria é o grau de deformação de uma curva de frequências.

Veja a Figura 3, que representa uma distribuição de frequências simétrica, e as Figuras 4 e 5 que

representam uma distribuição de frequências assimétricas.

Figura 3 – Histograma simétrico

Figura 4 – Histograma assimétrico à direita

Figura 5 – Histograma assimétrico à esquerda

5.4. Medidas de Curtose (ou achatamento):

A curtose ou excesso indica até que ponto a curva de frequências de uma distribuição se

apresenta mais afilada ou mais achatada do que uma curva-padrão, denominada curva normal ou

distribuição Normal (ou de Gauss – em homenagem ao matemático alemão Carl F. Gauss) é a

distribuição de probabilidade que mais frequentemente se utiliza para descrever fenômenos que são

traduzidos por variáveis aleatórias contínuas.

Teremos, portanto, no tocante às situações de Curtose de um conjunto, as seguintes

possibilidades:

Figura 7 – Achatamento das curvas com relação à Distribuição Normal de Probabilidade

- Mesocúrtica: ou de curtose média. Será essa a nossa Curva Normal. “Meso” lembra meio. Esta curva

está no meio termo: nem muito achatada, nem muito afilada;

- Platicúrtica: é a curva mais achatada, ou seja, os dados estão muito dispersos da média. Seu desenho

lembra o de um prato emborcado. Então “prato” lembra “plati” e “plati” lembra “platicúrtica”;

- Leptocúrtica: é a curva mais afilada, ou seja, os dados estão muito concentrados no meio (na média),

sempre estará acima da Curva Normal.

OBS: Se a distribuição é assimétrica não há razões para verificar o seu grau de achatamento, ou seja, não

existe curtose para ela.

5.5. Gráfico da distribuição de frequência acumulada “abaixo de” ou Ogiva de Galton**: É um

gráfico representativo da distribuição acumulada de frequências (%). É utilizado para encontrar uma

parcela da amostra até determinado valor.

Figura 3: Modelo de uma Ogiva de Galton

Ainda, de acordo o Exercício 1:

g) Construa um histograma, trace o polígono de frequências e verifique se os dados são simétricos ou

assimétricos (direita ou esquerda):

h) Construa uma Ogiva de Galton e informe em qual classe se encontram as 10% maiores notas e as 10%

menores.

6. MEDIDAS DE TENDÊNCIA CENTRAL PARA DADOS AGRUPADOS EM CLASSES:

6.1. Média Ponderada )(x : Quando os dados estão resumidos em uma tabela de frequência, podemos

aproximar a média substituindo os limites da classe pelos pontos médios delas, e supor que todos os

elementos da classe se concentram no respectivo ponto médio.

No exercício 2, por exemplo, a 2ª classe de 4,0|---5,2 contém dois valores que se situam em

algum ponto entre os limites da classe, mas não sabemos os valores específicos desses dois números. A

fim de possibilitar os cálculos, supomos que todos os dois valores se concentram no ponto médio 4,6, ou

seja, supomos que a média deles é 4,6.

n = número de observações ou tamanho da amostra

Xi = Ponto médio da i-ésima classe***

fi = frequência simples ou absoluta da i-ésima classe (pesos de cada classe)

k = número de classes

*** Ponto médio (Xi) = 2

si ll , onde li = limite inferior e ls = limite superior

6.2. Moda (Mo): Existem diferentes formas de se calcular a Moda de uma Distribuição de Frequências.

Para isso existem dois métodos, cada um dos quais traduzidos por uma fórmula.

Aprenderemos a determinar a Moda da Distribuição de Frequências pelo Método de Czuber e

pelo Método de King. Teremos então que conhecer ambas as fórmulas, saber aplicá-las e, sobretudo,

saber quando usar uma ou outra.

A regra é a seguinte: se a questão não especificar qual das fórmulas a ser empregada, pedindo

apenas que se calcule a Moda, usaremos a fórmula de Czuber. Consequentemente, só empregaremos a

fórmula de King quando assim for solicitado expressamente pelo enunciado.

- Passo Preliminar: Encontrar a Classe Modal

A determinação da Moda de uma Distribuição requer que se proceda a um passo preliminar, que

consiste em identificar a classe modal daquele conjunto. A classe modal será, simplesmente, aquela que

apresentar maior frequência absoluta simples, ou seja, maior fi.

- Moda pelo Método de Czuber:

limo= limite inferior da classe modal

OBS4: Delta () normalmente significa “diferença”.

Δ1 = Diferença entre a frequência absoluta da classe modal e da classe imediatamente anterior: Δ1 = fmo -

Δ2 = Diferença entre a frequência absoluta da classe modal e da classe imediatamente posterior:

Δ2 = fmo – fpost

h = comprimento do intervalo da classe modal

6.3. Mediana (Md): Quando se trabalha com uma distribuição de frequências, deve-se inicialmente,

identificar a classe mediana através do elemento mediano (EM), assim:

Para n = ímpar:

Para n = par: 2

Após isso, na frequência acumulada “abaixo de”, localizar a frequência imediatamente posterior

ao do elemento mediano. Em seguida, será identificada a classe mediana.

A mediana será dada pela seguinte fórmula:

hlMomoi

FEMlMd

linf Md = limite inferior da classe mediana (classe

que contém a mediana)

Fi anter Md = Frequência acumulada anterior a da

classe mediana

fimd = frequência absoluta da classe

mediana

h = amplitude do intervalo da classe mediana

n = tamanho da amostra

6.4. Medidas de dispersão para dados agrupados em classes:

Variância Desvio Padrão Coeficiente de Variação

Exercício 2: Os dados abaixo são referentes aos pesos (kg) de 25 crianças que nasceram de forma

prematura. Um nutricionista deseja analisar as condições nutricionais destes recém-nascidos e fazer um

acompanhamento do peso deles nos próximos 3 meses. Complete as informações que faltam na

distribuição de frequências e responda os itens abaixo:

Pesos (kg) fi fi (%) Fi

(abaixo de)

(acima de) xi xifi

1,5|--- 1,7

|--- 4

|--- 11

|--- 5

|--- 2

TOTAL 25 100% - -

Fonte: Dados hipotéticos

a) Calcule o peso médio dos recém-nascidos analisados

b) Calcule o peso que mais se repete entre dos recém-nascidos analisados

c) Calcule o peso mediano dos recém-nascidos analisados

d) Na primeira classe, quantos recém-nascidos pesam exatamente 1,5 Kg?

e) Quantos recém-nascidos pesam abaixo de 2,3 Kg?

f) Quantos recém-nascidos pesam acima de 1,5 Kg?

g) Quantos recém-nascidos pesam acima de 2,3 Kg?

Notas de Aula Estatística Professor Ms. Kleison Freitas – kfreitas@fanor.edu.br Página 54

Nota de Aula 6 – Probabilidade

1. INTRODUÇÃO:

O passo decisivo para a fundamentação teórica da inferência estatística associa-se ao

desenvolvimento do cálculo das probabilidades.

Até recentemente, era comum creditar a decisão de qualquer evento aos deuses ou alguma outra

causa sobrenatural. Simplesmente não havia espaço para uma abordagem que atribuísse ao acaso, e tão

somente a ele, essas ocorrências. Entretanto, a Humanidade precisou de centenas de anos para se

acostumar com um mundo onde alguns eventos não tinham causa, ou eram determinados por causas tão

remotas que somente podiam ser razoavelmente representados por modelos não casuais. Tendo isso em

vista, fica mais fácil perceber porque a abordagem matemática do acaso, do azar e do risco só se iniciou

há pouco mais de 500 anos.

Dessa forma, a teoria das probabilidades nasceu das tentativas de quantificação dos riscos dos

seguros e da avaliação das chances de se ganhar em jogos de azar.

Assim, essa quantificação dos riscos ocorreu há mais de 5 mil anos entre os comerciantes

marítimos mesopotâmicos e fenícios, aplicados à perda de carga de navios, ou por naufrágio ou por

roubo. Assim, a prática foi continuada pelos gregos e romanos e acabou chegando ao mundo cristão

medieval através dos comerciantes marítimos italianos que se baseavam em estimavas empíricas das

probabilidades de acidentes para estipularem as taxas e prêmios correspondentes.

Logo após o término da Idade Média, o crescimento dos centros urbanos levou à popularização

de um novo tipo de seguro: o seguro de vida. Assim, com este tipo de seguro surgiram os primeiros

estudos matemáticos sobre o assunto, fazendo com que houvesse um enorme aumento nos negócios de

seguros marítimos (associados aos preciosos carregamentos trazidos das Américas e das Índias), mas os

seguradores continuaram a usar as milenares técnicas empíricas.

Posteriormente a isso, o primeiro trabalho prático na área dos seguros de

vida é devido a Halley em 1693 (Degrees of Mortality of Mankind).

Nesse trabalho, Halley mostrou como calcular o valor da anuidade do

seguro em termos da expectativa de vida da pessoa e da probabilidade de

que ela sobreviva por um ou mais anos, mas com Daniel Bernoulli

(1730), a matemática dos seguros atingiu um estado bastante maduro,

pois com ele retoma-se um clássico problema de, a partir de um número

dado de recém nascidos, calcular o número esperado de sobreviventes

após n anos.

Além disso, ele também dá os primeiros passos em direção a novos tipos de seguros calculando,

por exemplo, a mortalidade causada pela varíola em pessoas de idade dada.

Concomitantemente, os jogos de azar, jogos nos quais a possibilidade de ganhar ou perder não dependem

da habilidade do jogador, mas sim exclusivamente do azar do apostador, são, provavelmente, tão velhos

quanto à humanidade.

Sendo assim, a origem da probabilidade se deu aos jogos de azar, através de questões postas pelo

matemático francês Pascal (1623-1662) com o célebre cavaleiro Méré, um famoso jogador profissional

que escreveu uma carta a Pascal, propondo-lhe resolver alguns problemas matemáticos que tinha

encontrado em suas lidas com jogos de azar.

Sendo assim, hoje há muitas aplicações que envolvem jogos de azar como as loterias, os cassinos

de jogos, as corridas de cavalos e os esportes organizados (futebol, voleibol, handebol), dentre outros, que

utilizam a teoria das probabilidades diariamente nas duas deliberações.

Independente de qual seja a aplicação em particular, a utilização das probabilidades indica que

existe um elemento de acaso, ou de incerteza, quanto à ocorrência ou não de um evento futuro. Assim é

que, em muitos casos, pode ser impossível afirmar por antecipação o que ocorrerá, mas é possível dizer o

que pode ocorrer. Por exemplo, se jogarmos uma moeda para o ar, de modo geral não podemos afirmar se

vai dar cara ou coroa. Além disso, mediante determinada combinação de julgamento, experiência e dados

históricos, em geral, é possível dizer quão provável é a ocorrência de determinado evento futuro.

Assim, as probabilidades são úteis porque auxiliam a desenvolver estratégias e faz com que o

método da inferência estatística se baseie na teoria da probabilidade para formular conclusões sobre toda

uma população (N) baseada em uma amostra (n). Dessa forma é que alguns motoristas parecem

demonstrar uma tendência para correr a grande velocidade se acham que há pouco risco de serem

apanhados ou de correr acidentes fatais. Os investidores sentem-se mais inclinados a aplicar seu dinheiro

se as chances de lucro são boas, e você certamente carregará capa ou guarda-chuva se houver grande

probabilidade de chover. Analogamente, uma empresa pode sentir-se inclinada a negociar seriamente com

um sindicato quando há forte ameaça de greve, ou mais inclinada a investir em novo equipamento se há

boa chance de recuperar o dinheiro, ou ainda de contratar um novo funcionário que pareça promissor,

dentre outros.

Ao longo dos anos, os cálculos probabilísticos vieram se aperfeiçoando, passando da simples

análise de fatos concretos à abstração destes. Um caso de utilização da teoria da probabilidade é o

envolver a maior loteria do Brasil, a Mega-Sena, onde são apostados de seis a quinze números, entre os

60 disponíveis no volante (01 a 60, inclusive respectivamente).

Neste jogo, os apostadores podem apostar de no mínimo seis números e no máximo quinze do

total de 60. Marcando 4, 5 ou 6 pontos (quadra, quina ou sena, respectivamente) receberão prêmios.

O preço das apostas dependendo de quantos grupos possíveis de seis números existem dentro dos

números escolhidos, variam de R$ 3,50 para seis números (somente 1 jogo possível) a R$ 8.758,75 para

15 números (5005 jogos possíveis). A possibilidade de acertar a Mega-Sena ao fazer uma aposta mínima

é de 1 em 50.063.860 (aproximadamente 50 milhões).

O cálculo é feito da seguinte forma:

n = Total de número a escolher (n = 60)

X = Ganhar na Mega-Sena, ou seja, quantidade de números a acertar dentre os 60 números (x = 6

números), então:

Como a ordem de escolha dos números não importa, então usa-se a seguinte fórmula de

combinação:

860.063.50!54!6

)!660(!6

, então:

P(ganhar na mega-sena) = %000002,000000002,0860.063.50

1 , ou seja, as chances de

ganhar o jogo com uma única cartela é de 1 para 50 milhões. Para todos os efeitos práticos, essa

probabilidade é zero, o que significa que o apostador tem quase nenhuma chance de ganhar na loteria com

uma única cartela, mas mesmo assim, sempre há algum ganhador na loteria. Essa contradição aparente

pode ser explicada com a seguinte analogia:

“Suponha que há uma fila de microônibus de Fortaleza até o Porto Alegre (RS). Suponha que

pela distância entre as duas cidades e pelo comprimento de um microônibus normal, haverá, de forma

hipotética, aproximadamente 23 milhões de microônibus na fila. Diretores da loteria selecionariam, ao

acaso, um dos microônibus e colocariam um cheque de 30 milhões de reais em seu porta-luvas. Por um

custo de dois reais o apostador pode viajar pelo país e selecionar um (e somente um) microônibus e

verificar o porta-luvas”.

Em sua opinião, você acha que o apostador vai encontrar os 30 milhões no microônibus que

escolheu?

Você deve estar quase certo que não. Agora, permita que qualquer pessoa entre na lotérica e por

dois reais adquira uma cartela e suponha que 50 milhões de pessoas façam isso uma única vez. Com um

número tão grande de participantes é muito provável que alguém vá achar o microônibus com os 30

milhões, mas é quase certo que não será você.

Este exemplo ilustra um axioma da Estatística chamando de a lei dos grandes números (proposta

por Bernoulli), que estabelece que a frequência relativa (proporção entre o número de elementos do

espaço amostral e o espaço amostral) do número de vezes em que um resultado ocorre quando um

experimento é repetido muitas vezes (um grande número de vezes) se aproxima do valor teórico da

probabilidade de resultado. Em outras palavras, quando se repete um experimento um número

suficientemente grande de vezes é possível, substituir a expressão “frequência relativa” por

“Probabilidade” com erro desprezível.

Bernoulli afirmou: “Para um grande número de experiências, tendo cada uma um resultado

aleatório, a frequência relativa de cada um desses resultados tende a estabilizar, convergindo para um

certo número que constitui a probabilidade desse resultado”.

É claro que se o número de repetições da experiência aleatória for bastante elevado, e a mesma

for repetida em sequências de n vezes, a frequência do acontecimento do evento E é diferente de

sequência para sequência, mas toma valores próximos de um valor dado. Esse valor é o limite para o qual

tende a frequência do acontecimento E, e é também o valor esperado (teórico) da probabilidade desse

acontecimento quando o número n de provas que se realizaram tende para infinito. Assim:

)(lim)(

No entanto, para este processo poder ter precisão, é necessário realizar um grande número de

vezes a experiência aleatória. Isto ocorrendo, para qualquer tipo de distribuição de probabilidade

(Normal, Uniforme, Triangular, Exponencial) a lei dos grandes números funciona também.

Na prática empresarial, a utilização lei dos grandes números ocorre devida uma razão bem

científica para escolha do ser humano médio como foco na formulação desta lei na gestão de pessoas,

podendo formulá-la mais ou menos assim: “O comportamento de um grande número de pessoas é mais

previsível do que o comportamento de um grupo pequeno ou que o comportamento de uma pessoa

isolada”. Essa afirmação nos ajuda a entender vários acontecimentos aparentemente misteriosos da vida

em sociedade, e muita mais na vida na empresa. Por exemplo, ninguém controla a quantidade de comida

que deve chegar a uma cidade como Fortaleza, ou quais tipos de comida devem ser encomendados, mas é

certo eu encontrar o que quero, quando quero, do jeito que quero. A habilidade que o sistema tem de

antecipar minhas necessidades e desejos sem que eu tenha falado deles a ninguém, é explicada pela lei

dos grandes números. Eu, um cara “médio”, não vou sair procurando nada muito fora da média. Chamam

esse talento para computar o que os “médios” querem, de talento de marketing, e para isso utilizam a

teoria da probabilidade.

Ainda para uma maior explicação da lei dos grandes números, se não soubermos a probabilidade

de ocorrer algum evento natural (por exemplo, a chance de chover), ou se não conhecemos a fração de

alguma população que satisfaz uma condição (tal como quantas partes defeituosas foram produzidas

numa linha de montagem) podemos descobrir esta probabilidade ou esta porcentagem através de

numerosas observações e experimentos suficientes.

Um outro exemplo para a lei dos grandes números é você pode achar estranho que uma pessoa

ganhe duas vezes ou mais na Mega-Sena. O New York Times contou a história de uma mulher de Nova

Jersey (EUA) que ganhou duas vezes a lotaria americana, dizendo que as probabilidades eram de “1 em

17 trilhões”. Contudo, os estatísticos Stephen Samuels e George McCabe da Universidade de Purdue

calcularam a probabilidade de alguém ganhar a loteria duas vezes num período de 4 meses como de 1

para 30.

Por quê essa chance e essa probabilidade de ganho aumenta?

Porque os jogadores não compram um único bilhete para cada uma das duas loterias, compram

vários bilhetes múltiplos por semana. Justificando nesse caso a lei dos grandes números com a quantidade

grande de jogadas por jogadores.

Em outras palavras, quer ganhar na Mega-Sena, aposte nela e com muitas cartelas, mas muitas

mesmo.

Um outro exemplo para a lei dos grandes números é, se fizermos uma pesquisa sobre a

população de um Estado brasileiro e observamos apenas alguns cidadãos (amostra), os resultados podem

conter grande erro, porém se analisarmos várias pessoas em várias cidades diferentes dentro deste Estado

(selecionados ao acaso), os resultados das amostras estarão muito próximos dos verdadeiros valores da

população e quanto maior a amostra (maior número de pessoas entrevistadas) maior será esta

aproximação.

Diante de tudo isto, os jogos, considerados legais, no Brasil é estimulado, pois de acordo o site

da Caixa Econômica Federal (Janeiro, 2012), quem joga na Mega-Sena tem milhões de motivos para

apostar e milhões de brasileiros para ajudar. 51% do valor arrecadado com as apostas é repassada ao

Governo Federal, que pode, então, realizar investimentos nas áreas da saúde, educação, segurança, cultura

e do esporte, beneficiando toda a população, por exemplo, 18,1% é destinado à Seguridade Social, 7,76%

ao FIES-Crédito educativo e 3,14% ao Fundo Penitenciário Nacional.

Desde então, as loterias em geral se tornaram imensamente populares por duas razões. Primeiro,

elas atraem o apostador com a oportunidade de ganhar milhões de reais com um investimento de dois

reais, segundo, quando o apostador perde, pelo menos acredita que seu dinheiro está indo para uma boa

causa.

A Mega-Sena não é simplesmente uma “vantagem” para o povo concedida pelo governo, pois

como a grande maioria dos apostadores são pertencentes à classe baixa, os mesmos gastam na loteria

aproximadamente o mesmo que pessoas de classe média, mas por terem menos dinheiro, o maior

percentual de seus ganhos dos que apostam na sorte se destinam a esse fim. Isso faz desta uma forma de

atividade “regressiva”, ou seja, empobrece mais quem já é tido como pobre.

“Sempre acerto 11 pontos e ganho 2 reais na LOTOFACIL, só

uma vez que acertei 13 pontos e ganhei 10 reais. No total ja

ganhei 32 reais, mas aí descontei 12 reais das apostas, sobrou

20 reais, só que aí fui descontar os outros jogos que eu não

acertei e vi que fiquei 17 reais mais pobre...”

(depoimento anônimo de um jogador)

2. CONCEITOS INICIAIS:

Experimentos(1) aleatórios: São aqueles que não são previsíveis, mesmo que repetido em idênticas

condições, geram resultados diferentes, pois ocorrem ao acaso.

Ex1: Lançamento de uma moeda honesta

Ex2: Lançamento de um dado não viciado

Ex3: Sorteio de uma bolinha no bingo

Ex4: Determinação da vida útil de um aparelho eletrônico

Ex5: Resultado de um jogo de futebol.

Espaço amostral (): É o conjunto de todos os resultados possíveis de um experimento aleatório, ou

seja, é o conjunto universo do experimento.

Ex: Seja o experimento “Lançar uma moeda honesta”.

Os resultados possíveis são:

= {C, K}, onde C = Cara e K = Coroa

Evento (E): É o subconjunto do espaço amostral que contém os resultados que nos interessam.

Ex: Lançam-se uma moeda e um dado.

Enumere o seguinte evento: E1= Sair cara e face par

Evento certo: É o evento que ocorre com certeza (É o próprio espaço amostral).

Ex: Sair face menor que 7 no lançamento de um dado.

Evento impossível: É o evento que nunca ocorre (), ou seja, não há possibilidade de ocorrência deste

evento.

Ex: Obter soma maior que 12 no lançamento de dois dados.

Operações com eventos aleatórios:

a) União: Sejam os eventos A e B, a união do evento A ao evento B é entendido por A B. Representa a

ocorrência de pelo menos um dos eventos, A ou B.

Ex: Seja o experimento: “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos:

E1: Ocorrer face par

E2: Ocorrer número menor que 3

Então, E1 E2 =

Representação esquemática pelo diagrama de Venn:

b) Interseção: O evento interseção é formado pelos pontos amostrais que pertencem simultaneamente

aos eventos A e B, sendo representado por A B.

Ex: Seja o experimento “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos:

E1: Ocorrer face par ou

E2: Ocorrer um número primo

Então, E1 E2 =

Eventos mutuamente exclusivos ou disjuntos: São eventos que não ocorrem simultaneamente, ou

seja, A B = , pois a ocorrência de um deles anula a ocorrência do outro.

Ex: Seja o experimento “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos:

E1: Ocorrer face par

E2: Ocorrer face ímpar

Então, E1 E2 =

Eventos complementares ( )E : O complemento de um evento “E”, denotado por E ou cE , consiste

em todos os resultados em que o evento “E” não ocorre, ou seja, é o acontecimento complementar de E.

Eventos complementares são eventos mutuamente exclusivos, mas a recíproca não é verdadeira,

ou seja, nem todo evento mutuamente exclusivo é complementar, por exemplo, no jogo de futebol, se o

time ganhar é por que o outro perdeu, mas se empatar, nenhum ganhou ou nenhum perdeu.

E E = (mutuamente exclusivo)

E E = E + E = E = - E

Dizemos que E e E são complementares se sua união é o próprio espaço amostral e sua

interseção é vazia.

Exemplo1: Cara ou coroa na jogada de uma moeda

Exemplo 2: Feridos e não feridos num acidente

Exemplo 3: Seja o experimento: “Resultado final de uma disciplina”: Aprovado ou não aprovado

2.1. Definição de Probabilidade: É a possibilidade de que certo evento venha ocorrer, ou seja, é uma

medida da incerteza associada aos resultados do experimento aleatório. De acordo a Lei de Laplace: Seja

um espaço amostral equiprovável (quando todos têm a mesma probabilidade de ocorrer) de um

experimento aleatório, e E, um evento desse espaço amostral finito*, definido por:

do elementos de Número

E de elementos de Número)(EP , assim:

Em outras palavras, probabilidade é uma fração entre o número de resultados favoráveis (aqueles

que satisfazem a necessidade do problema as ser calculado) com o número de resultados possíveis.

De acordo a Lei dos Grandes Números: Quando o número de provas aumenta muito, tendendo

para infinito, a frequência relativa de cada acontecimento, associado à experiência aleatória tende a

estabilizar na vizinhança de um certo valor, ou seja, converge para um limite que é a probabilidade desse

acontecimento.

Propriedades/Axiomas:

a) A probabilidade de um evento certo é igual a 1, isto é, P() = 1

b) O P(E) 1: A probabilidade de um evento ocorrer é sempre maior ou igual a zero e menor ou igual a

c) 1)()()(1)( APAPAPAP = P(), ou seja, a soma de eventos mutuamente exclusivos

sempre será igual a 1.

d) P() = 0, mas a reciproca não é verdadeira, pois o fato de P(A) = 0 não implica que seja impossível.

Exercício 1: Em um teste com 3 questões do tipo verdadeiro e falso, um estudante que não está preparado

deve responder cada uma aleatoriamente (“chutando”). Portanto:

a) Relacione os diferentes resultados possíveis:

Solução:

b) Qual é a probabilidade de responder corretamente todas as três questões?

Solução:

c) Qual é a probabilidade de passar no teste “chutando” corretamente pelo menos 2 questões?

Solução:

2.2. Teorema da soma: Seja E um espaço amostral finito e não vazio. O principal objetivo da regra da

adição é encontrar a probabilidade de ocorrência do evento A, ou do evento B, ou de ambos, ou pelo

menos um deles. Assim:

P (A B) = P (A) + P (B) – P (A B)

)BA(P)BA(P)BA(P)BA(P

Representando pelo diagrama de Venn:

Se os eventos forem mutuamente exclusivos, ou seja, não ocorrem simultaneamente, isto é,

A B = , então P (A B) = 0, assim: P (A B) = P (A) + P (B)

P (A e B) = P (A B)

Exercício 2: Uma pessoa vai ler uma frase de uma página ao acaso

de um livro de 240 páginas. Qual a probabilidade de ser escolhida

uma página com número compreendido entre 80 e 120, excluindo

estes dois?

Solução:

Quando as probabilidades de eventos mutuamente exclusivos somam 1, diz-se que os eventos

são coletivamente exaustivos, nesse caso não existem outros resultados possíveis.

Leis de Morgan ou Leis das Dualidades: Seja E um espaço amostral finito e não vazio. O principal

objetivo da regra é verificar a:

)BA(P = Probabilidade de não ocorrer A e B, ou seja, não ocorre a interseção.

)BA(P = Probabilidade de não ocorrer “A” e não ocorrer “B”, ou seja, não ocorre cada um

separadamente, assim: )BA(P =1- P(A B)

)()(1)( BAPBAPBAP : A probabilidade de não ocorrer a interseção.

Sejam A, B e C três eventos. Então:

P (A B C) = P (A) + P (B) + P (C) – P (A B) – P (A C) – P (B C) + P (A B C)

Exercício 3: Considere um experimento aleatório e os eventos A e B associados, tais que

P (A) = 2

1, P (B) =

1 e P (A B) =

1. Então temos:

a) )A(P

b) P(A B)

c) )BA(P

d) )BA(P

e) )BA(P

Exercício 4: Quando Maria pára em um posto de gasolina, a probabilidade dela abastecer o seu

automóvel é 0,73; a probabilidade dela pedir para verificar a pressão dos pneus é 0,28 e a probabilidade

dela pedir para realizar ambos, abastecimento e pneus é 0,04. Portanto, a probabilidade de Maria parar em

um posto de gasolina e não pedir nem para abastecer o automóvel e nem para verificar a pressão dos

pneus é igual a:

Solução:

2.3. Probabilidade condicional:

Se A e B são eventos associados a um espaço amostral , com P(B) 0, então a probabilidade

de ocorrência do evento A condicionada à ocorrência do evento B, é denotada por P (A/B) e definida pela

relação:

BAPBAP

, onde P (B) > 0

Nesse caso,

Se A e B forem independentes:

)().()/( AP

BPAPBAP , analogamente P(B/A) = P(B), ou seja, a regra da probabilidade

condicional não se aplica.

Exercício 5: Um número é sorteado ao acaso entre os inteiros: 1, 2, ... , 15. Se o número sorteado for par,

qual a probabilidade de que seja o número 6?

Solução:

Através da definição da probabilidade condicional definiu-se o chamado Teorema da

Multiplicação.

2.4. Teorema da multiplicação: A regra da multiplicação calcula a probabilidade de o evento A ocorrer

e a ocorrência do evento B, ou seja, P(A e B).

P (A e B) = P (A). P (B), se A e B são independentes

P (A e B) = P (A). P (B/A), se A e B são dependentes

Eventos independentes: Dois eventos A e B são independentes se a ocorrência de um deles não afeta

a probabilidade de ocorrência do outro, caso contrário, são dependentes. Então:

P (A B) = P (A). P (B), se A e B são independentes

P (A B) = P (A). P (B/A), se A e B são dependentes

A regra da multiplicação é extremamente importante em virtude de suas inúmeras aplicações.

Exemplo de dependência: O lançamento de uma moeda e um dado são eventos independentes, porque o

resultado da moeda não afeta a probabilidade do resultado do dado. Por outro lado, os eventos “conseguir

dar partida no carro” e “chegar à aula no horário” são dependentes, por que o resultado da operação de

dar partida no carro influi na probabilidade de chegar à aula no horário. E outra, assistir as aulas de

estatística depende para passar na disciplina de estatística.

Se A e B são mutuamente exclusivos, então A e B são dependentes, pois se A ocorre, B não

ocorre, isto é, a ocorrência de um evento condiciona a não ocorrência do outro.

Um exemplo de independência: A confiabilidade de um sistema aéreo: Os aviões têm dois sistemas

elétricos independentes e dois rádios. Um avião deve levar dois transceptores de radar, porque se um

único falhar o avião se torna invisível na tela do radar. Se a probabilidade de um desses componentes

falhar é de 0,001, ou seja, 1/1000 (um para cada mil), a probabilidade de dois falharem simultaneamente é

de apenas 0,001², ou seja, 1/1.000.000 (um para cada um milhão).

Um outro exemplo de independência: Imagina a situação em que em uma mão você tenha um dado e

em uma outra uma moeda, o lançamento de um e de outro não influencia nos seus respectivos resultados.

Ou seja, lança uma moeda para cima e um dado sobre a mesa não vai influenciar em nada, pois são

eventos independentes.

Exercício 6: Em uma caixa existem 5 bolas brancas e 8 bolas azuis. Duas bolas são retiradas uma após a

outra da caixa, aleatoriamente e sem reposição. Determine:

a) A probabilidade de serem brancas:

b) A probabilidade de uma ser branca e outra azul, em qualquer ordem:

Nota de Aula 7 – Apresentação Tabular e Gráfica de

Dados Com Uso Do Microsoft Excel

1. GERAÇÃO DE TABELAS E GRÁFICOS:

1º Passo: Abrir o Excel

Ao abrir o Excel: Visualizar o banco de dados (em anexo) referente ao perfil dos funcionários de uma

Empresa.

Identificar os tipos de variáveis:

Estado Civil: Variável Qualitativa Nominal

Sexo: Variável Qualitativa Nominal

Grau de instrução: Variável Qualitativa Ordinal

Salário (S.M): Quantitativa Contínua

Idade: Quantitativa Contínua

2º Passo: Fazer uma tabela para “Estado Civil”

Clicar na planilha nova (ao clicar já insere automaticamente outra planilha): Digitar na célula B2 as zonas

enunciativas da tabela (Estado Civil e Frequência).

Após isso digitar os estados civis dos funcionários que contém no banco de dados (Casado e Solteiro)

nessa ordem.

1.1. Frequência simples ou absoluta: Embaixo da palavra “frequência” que foi digitada:

Ir em Fórmulas Inserir função (fx) Selecionar a função “CONT.SE” clicar em “OK”

OBS: Para selecionar tudo de uma vez, clique em shift + end + (tudo junto).

Em “Intervalo”: selecionar todos os funcionários referentes à célula estado civil, sem o rótulo (título).

Em “Critérios”: Selecione o estado civil que está querendo quantificar (Essa seleção deve ser na

planilha do banco de dados e não na que foi criada, pois caso contrário vai dar “zero” e tá errado: O Excel

só entende se copiar e colar as palavras exatamente do banco de dados ou clicar nele). Clicar em

“OK”.

Embaixo do último estado civil digitado, digitar a palavra “Total” e na célula ao lado, clicar em

“Somatório” ou “=soma(C3:C4)”: O resultado deve ser 36, pois é a quantidade de funcionários no banco

de dados.

1.2. Frequência relativa (%): Ao lado do valor encontrado para o estado civil “casado”, calcular a

frequência percentual para esse estado civil:

Digitar a seguinte fórmula: =(valor encontrado/valor total) Clicar em “%” com uma casa decimal

(Formatar Célula Em porcentagem, clicar em 1 casa decimal).

Para fixar o valor total clicar no meio dele e depois em f4 e arrasta até fim da tabela.

Para a célula abaixo (Solteiro): Repetir os passos acima;

Em “Total”, clicar em “Somatório” ou “=soma(C3:C4)” (Cuidado, o total deve resultar em 1 ou

100%).

1.3. Formatação da tabela: Selecione toda zona enunciativa da tabela e clique em “Bordas” (Borda

superior e inferior). Idem para o “Total”.

Se quiser: Selecione toda coluna de “Frequência” e clicar em Borda externa (quadrado).

Cuidado: A tabela não deve ser fechada nas bordas.

Saída do Excel:

Estado Civil Frequência Frequência (%)

Casado 20 55,6

Solteiro 16 44,4

Total 36 100,0 Tabela 1: Estado civil dos funcionários da empresa x, Fortaleza, Ceará, 2013

Fonte: Empresa x

3º Passo: Construção do gráfico para a tabela de “Estado Civil”

O gráfico só sairá corretamente após a construção da tabela.

Selecionar os estados civis (Solteiro e Casado) e as respectivas freqüências: Ir em Inserir escolher

gráfico de pizza Avançar Clicar em “OK”.

OBS: Não precisa selecionar a frequência relativa (%) só a absoluta (o Excel já transforma se quiser).

1.4. Formatação do gráfico:

Apagar a legenda

Clicar com botão direito do mouse (Em uma das partes do gráfico, NÃO NAS DUAS): Formatar

Pontos de dados

Em “Prenchimento” (mudar as cores).

Em “Formatar Rótulo de dados” “Clicar em Porcentagem e Nome da Categoria” Ajustar

arrastando a melhor forma de apresentar os resultados Na porcentagem encontrada: Clicar com botão

direito do mouse Formatar rótulo de dados Número Porcentagem Casas decimais = 1.

Título: Botão direto do mouse: Opções do gráfico Em Título: digitar “Estado Civil dos

funcionários da Empresa x, Fortaleza 2013”.

Saída do Excel:

Gráfico 1: Estado Civil dos funcionários da Empresa x, Fortaleza 2013

Fonte: Empresa x

2. TABELA DINÂMICA:

Clicar em Inserir Tabela dinâmica Selecionar todo o banco de dados Intervalo: Selecione

Estado Civil e Sexo (tudo junto) Avançar Nova Planilha Concluir

Arrastar a variável estado civil para a coluna e a variável sexo para linha e qualquer uma das duas no

Saída do Excel:

Gráfico 2: Estado Civil e Sexo dos funcionários da Empresa x, Fortaleza 2013

Fonte: Empresa x

Sexo Estado Civil

Total Casado Solteiro

Feminino 12 10 22

Masculino 8 6 14

Total 20 16 36

Anexo 3 – Banco De Dados

Banco de dados referente ao perfil dos funcionários de uma determinada empresa

Nº. Estado Civil Sexo Grau de instrução Salário (S.M*) Idade

1 Solteiro Feminino Ensino Médio 6 20

3 Solteiro Masculino Superior 11 25

4 Solteiro Masculino Ensino Fundamental 4 26

5 Casado Feminino Superior 13 26

6 Solteiro Feminino Ensino Fundamental 8 27

7 Casado Feminino Ensino Fundamental 7 28

8 Casado Feminino Ensino Médio 15 29

9 Casado Masculino Ensino Médio 9 30

12 Solteiro Feminino Superior 16 31

16 Solteiro Feminino Superior 19 33

18 Solteiro Masculino Ensino Médio 12 34

21 Casado Masculino Ensino Fundamental 5 36

24 Solteiro Masculino Ensino Médio 11 37

26 Casado Masculino Ensino Fundamental 10 39

31 Casado Masculino Superior 23 42

33 Casado Feminino Superior 17 43

36 Casado Feminino Ensino Médio 19 48 Fonte: Empresa X

*Salário mínimo

Nota de Aula 8 – Distribuição Normal

1. INTRODUÇÃO:

Quando uma variável aleatória assume somente valores inteiros, suas informações são originadas

de uma variável aleatória discreta, pois estas são obtidas por contagem. Agora, em alguns casos, os

resultados de uma variável aleatória podem não estar limitados somente a números inteiros, mas podendo

ser não inteiros também. Suponha, por exemplo, que uma variável X represente a altura (cm) de um

indivíduo, neste caso, raramente um indivíduo tem exatamente 1,77cm ou 1,78cm de altura, pois

teoricamente, esta variável pode assumir um número infinito de valores intermediários, como 1,7704cm

ou 1,7832 cm, por isso trata-se de uma variável aleatória contínua, variável este que é obtida por

mensuração e por este motivo seus possíveis valores tendem para o infinito, visto não serem inteiros.

A descoberta teve logo grande sucesso e grandes estudiosos da época foram ligados à curva

normal, tais como Laplace que em 1783 a utilizou para descrever a distribuição de erros, e Gauss que em

1809 a empregou para analisar dados astronômicos.

Assim, como Gauss foi a primeira pessoa a reafirmar o papel fundamental proposta por Moivre a

curva da normal é chamada hoje de curva de Gauss.

Antes de explanar com mais detalhes a curva de Gauss, faz-se necessário analisar a lei dos

grandes números proposta por Bernoulli. Esse teorema diz o seguinte: numa situação de eventos casuais,

onde as alternativas são independentes, obter coroa em lances de uma moeda de cara ou coroa, tem a

A distribuição contínua mais comum e mais utilizada

no âmbito estatístico é a distribuição de probabilidade chamada

normal, que também é conhecida como curva em forma de sino

ou curva de Gauss, como será vista mais adiante.

Esta distribuição tem uma história bastante longa, e

está ligada à história da descoberta das probabilidades, que

surgiram no século XVII para resolver, inicialmente, questões

de apostas de jogo de azar.

O responsável direto pela curva normal foi o

matemático francês Abraham de Moivre (1667-1754), exilado

na Inglaterra, que a definiu em 1730, dando sequência aos

trabalhos de Jacob Bernoulli (com o teorema dos grandes

números) e de seu sobrinho Nicolaus Bernoulli, ambos

matemáticos suíços.

Johann Carl Friedrich Gauss (1777-1855)

probabilidade matemática exata de 50% (porque somente dois eventos possíveis: cara ou coroa), mas na

prática esta probabilidade de 50% é apenas aproximada. E essa aproximação é tanto mais exata quanto

maior forem às tentativas que você fizer de lançar moeda, chegando a quase atingir os exatos 50% se

você lançar a moeda infinitas vezes. Isto é, quanto mais lances você fizer, menor será o desvio (erro) em

relação à média de 50% que o resultado irá produzir. Isso quer dizer que os desvios serão menores na

medida em que sobe o número de lances. Desvios grandes são raros e desvios pequenos frequentes,

quanto menores os desvios mais frequentes eles serão, de sorte que, aumentando as tentativas (os lances),

aumenta-se o número de desvios pequenos, sobrepujando cada vez mais os desvios grandes, de tal sorte

que, no limite, haverá quase somente desvios pequenos, sendo o desvio zero o menor deles e, por

consequência, o mais frequente.

O matemático francês Moivre assumiu essa idéia de Bernoulli e disse: erros grandes são mais

raros que erros pequenos. Assim, quanto menores os erros, mais frequentes eles serão e quanto maiores,

menos frequentes. Dessa forma, os erros se distribuem equitativamente em torno de um ponto modal, a

média, formando uma curva simétrica com pico na média e caindo rapidamente para as caudas à esquerda

(erros que subestimam a média) e à direita (erros que superestimam a média). Além disso, essa curva

simétrica permitiu a Moivre calcular uma medida de dispersão das observações em torno da média,

medida esta que hoje em dia é conhecida como o desvio padrão. Moivre, ainda chamou esta curva de

normal, por que a média dela representa a norma, isto é, as coisas todas deviam ser como a média, de

sorte que tudo que se desvia dessa média é considerado erro, portanto a equivalência, neste caso, entre

desvio e erro.

Um outro matemática do século XIX, de origem belga, Quetelet, fez uma “orgia de medições”

sobre eventos do homem, tais como natalidade, mortalidade, alcoolismo, insanidade, medidas

antropométricas, dentre outros, resultando no Tratado sobre o homem e o desenvolvimento de suas

faculdades (1835), afirmando que tudo no homem e no mundo se distribui segundo a curva normal.

Embora essa afirmação de Quetelet tenha tido reações contrárias, ela evocou pesquisas sem fim sobre esta

história da distribuição normal dos eventos, chegando hoje em dia a ser mantida a idéia de que,

praticamente, todos os eventos se distribuem assim. Daí, a hegemonia da curva normal nas análises

estatísticas em pesquisas científicas.

Aliás, assumir a distribuição normal em pesquisa está baseado em dois fundamentos:

1 – Quando a distribuição da própria população for normal, ou

2 – Quando a distribuição da população não for normal, mas se tiver o número grande de casos (teorema

de Bernoulli através da lei dos grandes números ou o teorema central do limite).

Esta história do limite central é extremamente complicada, mas os matemáticos chegaram a

provar este teorema. Assim, qualquer que seja a distribuição dos seus dados, se você tiver um número

grande de observações, você pode usar com tranquilidade a curva normal como uma aproximação

adequada para a análise dos seus dados. Uma curiosidade: um N de tamanho 30 já é considerado um

grande número se a distribuição da população for próximo do normal. Um N bem maior será necessário

se a distribuição da população não for normal.

Hoje em dia, a curva da normal é um ganho fundamental na prática estatística, pois a

normalidade dos dados ocorre naturalmente em muitas áreas científicas, como na física, biologia e nas

áreas sociais, e também uma distribuição fundamental para a inferência estatística. Por exemplo, a sua

aplicação na análise de dados na área da biomedicina é grande, pois muitas variáveis numéricas contínuas

comprovaram que têm distribuição normal ou aproximadamente normal. Um outro exemplo que pode ser

citado é a altura, o peso, o índice de massa corporal (IMC) dos indivíduos, dentre outras. Alguns dos

principais métodos empregados na análise estatística, como a Análise de Variância, a Análise de

Regressão, dentre outros exigem, como pressuposto que os dados sigam uma distribuição normal para sua

realização.

Esta nota de aula mostrará o uso prático da distribuição normal de probabilidade e a sua

importância tanto na academia quanto no mercado empresarial.

2. DISTRIBUIÇÃO NORMAL:

Mas por que esta distribuição tem esse nome? Existe uma explicação plausível para isto, será

visto mais adiante.

A distribuição normal é uma distribuição de probabilidade usada para variáveis aleatórias

contínuas (obtidas por mensuração), com a seguinte notação X ~ N (; ²) e sua função densidade de

probabilidade é dada por:

exf , para - < x < (ou x ), onde:

X = Variável aleatória contínua analisada

x = Valor qualquer da variável aleatória X

= Média populacional

= Desvio padrão populacional

= 3,1416...

e = 2,7182...

3. CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL:

a) A variável “X” pode assumir qualquer valor real (- a +);

b) O gráfico da distribuição normal tem uma curva simétrica (a média moda mediana) e unimodal na

forma de um sino e é apresentado um ponto de inflexão à esquerda (x = - 1) e outro à direita (x = +

1), ou seja, ou seja, o que define a área sob a curva são os desvios padrão (), assim fixando o valor da

média, o “achatamento” da curva está diretamente ligado ao valor de .

O gráfico que mostra os indícios de que os dados de uma distribuição é aproximadamente normal

é o histograma ou o diagrama de ramo e folhas.

A distribuição normal é uma das distribuições fundamentais da moderna teoria estatística. A

vantagem da distribuição normal reside na facilidade de defini-la com apenas dois parâmetros, a média

e o desvio padrão da distribuição, por exemplo, suponha a seguinte a curva da normal f(x) para = 40 e

= 10, o gráfico construído será:

0,0000

0,0050

0,0100

0,0150

0,0200

0,0250

0,0300

0,0350

0,0400

0,0450

0 10 20 30 40 50 60 70 80

Parâmetros da variável aleatória

Gráfico 1: Distribuição Normal com média e desvio padrão

Substituindo os parâmetros

= 40 e = 10 na função densidade

de probabilidade, será encontrado os

seguintes valores:

x f(x)

20 0,0007

30 0,0146

40 0,0399

50 0,0146

60 0,0007

Segue o gráfico 1 com a plotagem dos

seguintes valores.

Uma das características importantes da normal é que a partir desses parâmetros será possível

calcular, por exemplo, a porcentagem de valores que deverão estar acima ou abaixo de um determinado

valor da v.a., ou entre esses dois valores definidos.

Analisando a fórmula de f(x), observe que para cada par de parâmetros e , há uma curva

diferente de f(x) ou que, para qualquer outro par de parâmetros e , a curva f(x) será diferente.

c) Os valores de f(x) nunca tocam o eixo “x” da curva da Normal, mas f(x) 0, se x ;

d) A área sob a curva é 1.

Como se trata de distribuição de probabilidade contínua, a área que fica entre a curva e o eixo “x”

representa a probabilidade. A probabilidade de ocorrer um evento entre os pontos “a” e “b” é calculada

pela integral definida (visto na disciplina de cálculo) da função entre os pontos “a” e “b”, representada

ebaP , graficamente:

Observa-se que o cálculo direto de probabilidade envolvendo a distribuição normal exige recursos

de cálculo avançado e, mesmo assim, dada a forma da função densidade de probabilidade (f.d.p), não é um

processo muito elementar. Por isso ela foi tabelada, permitindo assim obter diretamente o valor da

probabilidade desejada.

Verifica-se que, no entanto a f.d.p da normal depende de dois parâmetros, a e ², o que acarreta

um grande trabalhado para tabelar as probabilidades, considerando-se as várias combinações de e ².

Esse problema pode ser resolvido por meio de uma mudança de variável, obtendo-se, assim, a

distribuição normal padronizada ou reduzida.

4. A CURVA NORMAL E A CURVA PADRONIZADA (Z):

Os pesquisadores quando falam da curvam normal, tipicamente entendem a curva normal

padronizada (ou igualitária a normal original), a qual é definida pela simetria e pela curtose. Mas a curva

normal original é definida exclusivamente pela simetria, isto é, que as áreas sob a curva são idênticas em

ambos os lados da média: a curva normal é unimodal (tem apenas um pico) e simétrica. Assim, todas as

curvas da figura abaixo são normais, porque têm um pico somente e são simétricas, embora os desvios

sejam diferentes, provocando diferentes níveis de curtose.

Na fórmula

, observa-se que a parte mais importante é o expoente

, e nele se vê que quem comanda as ações são os dados empíricos de X e os parâmetros de

sua distribuição (µ e ). Agora, tanto os X quanto os parâmetros de uma distribuição variam de pesquisa

para pesquisa e, assim, as curvas normais que resultam são diferentes. Portanto, ao invés de trabalhar com

os valores brutos de X, vamos padronizar estes valores e transformá-los em valores de Z, ou seja, agora a

distribuição normal terá o seguinte formato:

XZ , com isso 2

A vantagem deste curva normal padronizada é que em alguns parâmetros já estão

automaticamente definidos para qualquer escala de medida que você utilizar , quais seja, a média é zero

( = 0) e desvio padrão um ( = 1), onde suas probabilidades já foram calculadas e são apresentadas em

uma tabela (ver anexo desta nota de aula) de fácil utilização. Essa tabela nada mais é que uma tabela de

conversão do número de desvios padrão entre x e em um algoritmo.

Em que X é uma variável aleatória normal da média e variância ² (são constantes), assim:

X ~ N(; ²) Z ~ N(0; 1²), seu gráfico será:

A curva normal padronizada é definida pela simetria e pela curtose, sendo chamada de

mesocúrtica.

A curtose da distribuição normal se refere á altura do pico da curva, o qual acontece na média da

distribuição: se o pico é muito elevado, a curva é chamada de leptocúrtica, se o pico é achatado a curva é

chamada de platicúrtica, se for mediano, a curva é chamada de mesocúrtica, sendo esta última, a

característica da normal padronizada, como mostra a figura abaixo:

Trabalhar com a curva normal padronizada facilita muito a vida da gente, pois com ela a média

sempre será zero e o desvio padrão será um. Quando não for padronizada, então teremos que calcular o

valor da média e o valor do desvio padrão da distribuição e trabalhar com os dois parâmetros.

5. USO DA TABELA NORMAL PADRÃO (Z):

A tabela oferece a área entre 0 e Z0 ou P(0 Z Z0), conforme visto no gráfico abaixo:

Onde Z0 representa o número de desvios padrão distante da média, ou seja, as informações

contidas nessa tabela não são sempre idênticas nos diferentes autores de livros de estatística, mas duas

informações sempre estão presentes e essas duas são as mais importantes, a saber, o Z e a proporção de

casos que caem na faixa que vai da média zero até este valor de Z. Assim, se você conhece o Z, você

pode descobrir qual a proporção de casos que corresponde a ele ou, se você conhece a proporção de

casos, você pode descobrir qual o Z que lhe corresponde.

OBS: Embora a curva normal vá até o infinito (positivo e negativo), você vê que quase a totalidade dos

casos cai entre -3 e 3 desvios padrão (ou Z), de fato, 99,74% dos casos, por isso, a tabela (em anexo) varia

-3,99 a 3,99, acima ou abaixo disso é 0,499.

6. REGRA EMPÍRICA (OU REGRA 68-95-99):

Outra regra que auxilia a interpretação de um desvio padrão é a regra empírica, aplicável

somente a conjunto de dados com distribuição aproximadamente em forma de sino, pois mostra como a

média e o desvio padrão estão relacionados com a proporção dos dados que se enquadram em

determinados limites. A regra é a seguinte:

Cerca de 68% dos valores estão a menos ou a mais de 1 desvio padrão a contar da média, o que

justifica o nome da distribuição de probabilidade “normal”, pois 68% representa a maioria, e a maioria é

o que representa “ser normal” ou que está “dentro do padrão”. Nesse caso, 68% dos elementos (a maioria)

apresentam determinada característica;

Se quiser melhorar esse nível proporcional de elementos que possuem determinada característica, de 68%

para 95%, ou seja, basta-se pegar 2 desvios padrão para mais e para menos a contar da média, assim:

Cerca de 95% dos valores estão a menos ou a mais de 2 desvios padrão a contar da média;

Se quiser ainda aumento esse nível proporcional de 95% para 99,7%, então deve-se pegar 3 desvios

padrão para mais e para menos a contar da média, assim:

Cerca de 99,74% dos valores estão a menos ou a mais de 3 desvios padrão a contar da média. Nesse

último caso, a análise é de quase toda a população possuir determinada característica.

Com isso, se os dados são aproximadamente normais, as porcentagens serão aproximadamente

iguais a 68%, 95% e 100%, respectivamente.

Ver figura da regra empírica.

Portanto, quase nunca é preciso prolongar muito as caudas de uma distribuição normal, porque a

área sob a curva é de mais ou menos 4 ou 5 desvios-padrão a contar da média é desprezível para quase

todos os fins práticos.

Exemplo 1: Encontre a probabilidade de:

a) P(Z 1,34)

b) P(Z 1)

c) P(-2,55 Z 1,2)

d) P(1 Z 3,09)

e) P( - 3 X + 3)

Exemplo 2: O saldo diário de caixa de uma determinada empresa de grande porte de Fortaleza nos

últimos 400 dias tem distribuição normal com média R$ 80.000 e desvio padrão R$ 40.000. Suponha que

o gerente financeiro desta empresa deseja tomar uma decisão de investimento com seu banco e precisa

com urgência saber qual a probabilidade do saldo do caixa de hoje às 18 horas fechar:

a) Entre R$ 30.000 e R$ 120.000, pois de acordo o Diretor Geral da empresa se o caixa de hoje fechar

com valores dentro desse intervalo, o gerente financeiro pode arriscar a fazer o investimento, mas isso só

pode ser realizado se a probabilidade for alta (de acordo o Diretor Geral é acima de 70%). Portanto

verifique para o gerente financeiro se ele pode ou não fazer o investimento.

b) Suponha que o gerente queira saber qual a probabilidade do caixa fechar com valor acima de 100 mil

reais. Confiando nessa possibilidade, você o aconselha fazer o investimento financeiro maior pensando

nesse valor em reais?

c) Existe a possibilidade do saldo diário de caixa ser negativo hoje? Se sim, qual é a probabilidade disso

acontecer?

Anexo 4 – Tabelas da Distribuição Normal

1ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA PARA AP1

VARIÁVEIS:

1) Suponha que um médico está interessado em fazer um levantamento sobre algumas características de

60 pacientes atendidos em sua clínica neurológica: sexo, peso, tipo de tratamento, número de convulsões

e classificação da doença (leve, moderada e severa). Os dados estão organizados no seguinte banco de

dados:

Paciente Sexo Peso Tipo de

Tratamento

Nº. de

convulsões

Classificação da

doença

1 M 89,79 A 1 Leve

2 F 64,20 A 3 Severa

3 M 91,00 B 2 Moderada

... ... ... ... ... ...

58 M 71,00 B 0 Severa

59 M 78,80 A 2 Leve

60 F 71,00 B 3 Moderada Fonte: Dados hipotéticos

De acordo com o banco de dados acima classifique o tipo de variável para as variáveis seguintes:

a) Sexo:

( ) Qualitativa Nominal ( ) Qualitativa Ordinal ( ) Quantitativa Discreta ( ) Quantitativa Contínua

b) Peso:

c) Tipo de Tratamento:

d) Número de Convulsões:

e) Classificação da doença:

2) O Governo Federal está exigindo uma quantidade maior de informação antes de aceitar um candidato e

decidir sobre a concessão de uma bolsa para uma faculdade privada de Fortaleza. Assim, classifique cada

uma das informações dos futuros alunos à instituição na ficha de inscrição do vestibular:

a) Quantidade de prêmios escolares obtidos:

b) Classificação de testes de raciocínio:

c) Salário (em reais) dos pais:

d) Idade do candidato:

3) Suponha que foram retirados de vários questionários de pesquisas as seguintes perguntas. Classifique

assim o tipo de variável de cada uma delas:

Pergunta 1: Qual o seu Estado civil?

( ) Solteiro ( ) Casado ( ) Separado ( ) Desquitado ( ) Outro. Qual?___________________

Pergunta 2: Qual a marca de carros que mais passa na cancela do estacionamento deste shopping center?

( ) Marcar A ( ) Marca B ( ) Marca C ( ) Marca D ( ) Outra. Qual?_____________________

Pergunta 3: Qual a sua faixa de Renda familiar mensal (OBS: Identificar a classe social de acordo com a

legenda abaixo)?

( ) Até R$ 724,00

( ) De R$ 724,01 a R$ 2.172,00

( ) De R$ 2.172,01 a R$ 3.620,00

( ) De R$ 3.620,01 a R$ 10.860,00

( ) Mais de R$ 10.860,00

Pergunta 4: Qual a cor de cabelo de sua preferência?

( ) Loiro ( ) Preto ( ) Acajú ( ) Outra. Qual?__________________________________________

Legenda com relação a faixa de renda familiar do pesquisado e sua classe

social:

Até R$ 724,00 – Classe E

De R$ 724,01 a R$ 2.172,00 – Classe D

De R$ 2.172,01 a R$ 3.620,00 – Classe C

De R$ 3.621,01 a R$ 10.860,00 – Classe B

Mais de 10.860,00 – Classe A

Marque a opção correta:

(a) Qualitativa Nominal, Qualitativa Ordinal, Qualitativa Ordinal e Qualitativa Nominal

(b) Qualitativa Nominal, Qualitativa Nominal, Qualitativa Ordinal e Qualitativa Nominal

(c) Qualitativa Nominal, Qualitativa Nominal, Qualitativa Nominal e Qualitativa Nominal

(d) Nenhuma das respostas anteriores

PLANEJAMENTO AMOSTRAL:

4) Identifique o tipo de técnica de amostragem probabilística para cada um dos casos abaixo:

a) Suponha que uma pesquisa de opinião pública será realizada no Estado do Ceará, que é constituído por

184 municípios. Os elementos na população de interesse são homens e mulheres do Estado com idade

acima de 21 anos. Que tipo de amostragem você sugeriria sob o ponto de vista econômico-financeiro?

( ) Amostra Aleatória Simples

( ) Amostra Aleatória Estratificada

( ) Amostra Sistemática

( ) Amostra por Conglomerado

b) Um médico está interessado em obter informação sobre o número médio de vezes em que 15.000

clínicos gerais, no ano passado, prescreveram certa droga para combater uma gripe. Deseja-se obter uma

amostra 1.600 clínicos gerais. Que tipo de amostragem você sugeriria e por quê?

( ) Amostra Aleatória Simples ou Amostra Aleatória Estratificada

( ) Amostra Aleatória Simples ou Amostra Sistemática

( ) Amostra Aleatória Simples ou Amostra por Conglomerado

( ) Nenhuma das Anteriores

c) Suponha que nesta sala de aula existam 50 alunos e deseja-se saber qual o peso (em kg) deles. A

sugestão é analisar 30% da população com escolha através da lista de presença do professor. Que tipo de

técnica de amostragem representa esta situação?

( ) Amostra Aleatória Simples ou Amostra Aleatória Estratificada

( ) Amostra Aleatória Simples ou Amostra Sistemática

( ) Amostra Aleatória Simples ou Amostra por Conglomerado

d) Um pesquisador de Educação Física seleciona aleatoriamente 10 quarteirões de um bairro de Fortaleza,

que é comporta por 755 quarteirões e pergunta então a todos os adultos residentes nos quarteirões

selecionados se são praticantes de atividades físicas. Que tipo de amostragem representa esse estudo?

( ) Amostra Aleatória Simples

( ) Amostra Aleatória Estratificada

( ) Amostra Sistemática

5) Um Psicólogo deseja estudar as condições de vida dos moradores de um determinado bairro de

Fortaleza para com isso elaborar junto a Prefeitura de Fortaleza programas de inclusão social. Segundo a

prefeitura, o bairro é composto por 3.000 domicílios cadastrados. Então, com confiança e 95%:

a) E através de uma amostra aleatória simples (AAS) correspondente a 40% da população, qual será a

margem de erro?

b) Sabendo-se que 1.500 dos domicílios são residenciais, 1.050 são comerciais e o restante são

industriais, extraia uma amostra aleatória estratificada proporcional, com uma margem de erro de 3

pontos percentuais.

c) Se o psicólogo fizer uma amostra por conglomerado para duas categorias apenas (Comerciais e

Industriais), quantos deles serão pesquisados utilizando uma amostra sistemática em que o sistema

escolhido aleatoriamente foi domicílios pares? Qual a margem de erro para este tipo de amostragem?

d) Dentre as três técnicas (Amostra Aleatória Simples, Amostra Aleatória Estratificada e Amostra

Sistemática), qual delas trará um resultado mais eficaz à pesquisa?

Gabarito: a) 2,2%; b) 811; c) 2,58%

MEDIDAS DESCRITIVAS PARA DADOS NÃO AGRUPADOS:

6) Dentre as afirmativa abaixo, marque a incorreta:

(A) O Q2 é igual à mediana

(B) Os decis dividem a distribuição em décimos

(C) As separatrizes são estimativas de dispersão

(D) O P60 indica que 40% dos valores são maiores que ele.

(E) O Q4 coincide com o maior valor da amostra.

Gabarito: C

7) Baseado nos dados abaixo, que representa a temperatura (em graus celcius) de 11 cidades europeias na

noite do reveillon de 2014:

Lisboa Paris Mônaco Cannes Barcelona Londres Lyon Nice Avignon Lille Porto

2°C 3°C -5°C 6°C -7°C -2°C 0°C 8°C -3°C 5°C 10°C

Assim, determine e interprete:

a) A temperatura média das cidades.

b) A temperatura modal das cidades.

c) A temperatura mediana das cidades.

d) Desvio Padrão da temperatura das cidades.

e) Através do coeficiente de variação (CV), verifique se as temperaturas são homogêneas.

f) Faça um gráfico de linhas para os dados e identifique os dados discrepantes ou outliers ou dados

atípicos (ou dados fora do intervalo definido pelo desvio padrão encontrado), se houver.

Gabarito: a) 1,54°C; c) 2°C; d) 5,46°C; e) 354,54%; f) Cidades: Mônaco, Barcelona, Nice e Porto.

8) Para dados de observações das variáveis aleatórias y1, y2 e y3 provenientes de uma amostra foram

obtidos os gráficos de caixa (“box plot”) apresentados na figura que se segue:

9) Assinale a afirmativa verdadeira:

(A) Se uma instituição der um aumento de 8% nos salários de seus servidores, automaticamente o seu

coeficiente de variação eleva-se no mesmo percentual.

(B) Sempre que uma distribuição for simétrica e unimodal, média, moda e mediana são iguais.

(C) A vantagem da média aritmética é que ela é sempre maior que a moda.

(D) Dentre as desvantagens apresentadas pela média aritmética podemos afirmar que ela é afetada por

valores extremos e que a soma dos seus desvios é sempre maior que zero. Gabarito: B

Segundo estes gráficos, é possível afirmar que as

distribuições das variáveis aleatórias y1, y2 e y3 são

(aproximadamente), respectivamente:

(A) Assimétrica positiva, simétrica e assimétrica

positiva.

(B) Simétrica, assimétrica positiva e assimétrica

negativa.

(C) Simétrica, assimétrica negativa e assimétrica

positiva.

(D) Assimétrica negativa, assimétrica positiva e

simétrica.

(E) Assimétrica positiva, assimétrica negativa e

simétrica. Gabarito: B

10) Em um exame final de Matemática, o grau médio de um grupo de 150 alunos foi 7,8 e o desvio

padrão, 0,8. Em Bioestatística, entretanto, o grau médio final foi 7,3 e o desvio padrão, 0,76. Em que

disciplina foi maior a dispersão relativa? Por quê?

OBS: Dispersão absoluta (= desvio padrão), Dispersão relativa (= CV).

Gabarito: Bioestatística

11) Considere as informações apresentadas no gráfico de dispersão abaixo sobre o desempenho no

Sistema de Avaliação da Educação Básica (SAEB), no ano de 2005, da Rede Pública e Privada do Ensino

Médio.

Pelo gráfico de dispersão acima:

a) Qual (is) unidade (s) da Federação que apresentou o menor tempo (em anos) de conclusão de uma série

do ensino médio?

b) Qual é o tempo médio mais frequente para a conclusão de uma série do Ensino Médio?

c) Qual é a média da nota padronizada mais frequente para a conclusão de uma série do Ensino Médio?

d) Qual (is) estado (s) apresentou a menor média da nota padronizada nesta edição do SAEB?

e) E qual apresentou a maior?

CORRELAÇÃO E REGRESSÃO LINEAR

12) Segue abaixo o gráfico de dispersão construído através do Microsoft Excel que representa as despesas

com propaganda (R$ milhões) versus Vendas (R$ milhões), da indústria farmacêutica Xis, 2006 a 2008.

Fonte: MORETTIN, P (2003, 5ª edição)

E através do método dos mínimos quadrados (ou método de regressão linear), pergunta-se:

a) De acordo o gráfico 1, você considera que os dados seguem uma linearidade?

( ) Não. Por quê?_____________________________________________________________________

___________________________________________________________________________________

( ) Sim. Se sim, qual tipo?

( ) Positiva. Por quê?____________________________________________________________

( ) Negativa. Por quê?__________________________________________________________

b) Através do gráfico 2, encontre o valor do Coeficiente de Correlação (Rxy)?

c) Através da equação de previsão (y = a + bx) encontrada, faça uma previsão estatística de quanto à

empresa farmacêutica teria de vendas (R$ milhões), se investisse 7,5 milhões em propaganda.

d) Se a empresa diz que quer no próximo trimestre um faturamento de vendas no valor de 30 milhões de

reais, quanto ela terá que investir em propaganda?

e) Os 9,17% no gráfico 2 são explicados por qual variável?

Gráfico 2: Despesas com propaganda (R$ milhões)

versus Vendas (R$ milhões), indústria farmacêutica

Xis, 2006 a 2008

y = 1,3125 + 1,9583x

R2 = 0,9083

0 2 4 6 8 10 12 14

Despesas com Propaganda (R$ milhões)V

Gráfico 1: Despesas com propaganda (R$ milhões)

versus Vendas (R$ milhões), indústria farmacêutica

Xis, 2006 a 2008

0 2 4 6 8 10 12 14

Despesas com Propaganda (R$ milhões)

De acordo com a mesma variável dependente “vendas (R$ milhões)”, a empresa também obteve a

temperatura média (ºC) da região sul do Brasil, onde se encontram os maiores consumidores dos seus

medicamentos, como segue o gráfico 3:

Gráfico 3: Vendas (R$ milhões) da indústria

farmacêutica Xia versusa Temperatura média do

trimestre na região sul do Brasil, 2006 a 2008, Brasil.

y = 25,71 -1,1258x

R2 = 0,7666

0 5 10 15 20

Temperatura (ºC)

13) A indústria de automóveis FIAT do Brasil, fez um gráfico de dispersão com uso do Microsoft Excel

que representa os pesos (em toneladas) e as taxas de consumo de combustível por quilômetro rodado

(km/litro) para uma amostra de 250 automóveis de passeio em rodovias federais do Estado do Ceará no

mês de Outubro de 2014. O Estudo tem por objetivo fazer uma previsão de consumo de combustível por

quilômetro rodado com relação ao peso do automóvel, para com isso verificar se os próximos automóveis

a serem confeccionados devem ter o mesmo peso ou não e usar essa informação na sua campanha

publicitária no lançamento de novos modelos em Julho de 2015.

Gráfico 1: Peso (toneladas) e taxas de consumos de

combustíveis (Km/litro) de automóveis de passeio em

rodovias.

y = 18,945 - 6,4013x

R2 = 0,8588

1 1,2 1,4 1,6 1,8 2

Peso (toneladas)

f) Para se fazer a previsão de vendas (R$

milhões), qual das duas variáveis a empresa

deve levar mais em consideração: Despesas

com propaganda (R$ milhões) ou

Temperatura (ºC)? Por quê?

Solução:

b) 0,953;

c) Aproximadamente 16 milhões;

d) 14,65 milhões

Marque a alternativa correta:

13.1. Pelo gráfico de dispersão 1:

(a) Os dados seguem uma linearidade

diretamente proporcional ou positiva

(b) Os dados seguem uma linearidade

inversamente proporcional ou negativa

(c) A medida com que o peso dos

automóveis (toneladas) aumenta o

consumo (km/litro) permanece constante

(d) Os dados não seguem uma linearidade,

ou seja, é não linear

(e) A variável causa é o consumo (km/litro)

e a variável efeito é o peso (toneladas)

13.2. Pelos dados apresentados no gráfico de dispersão 1, o Coeficiente de Correlação de Pearson (Rxy) é

de quanto?

(a) -92,27%

(b) -92,47%

(c) -92,67%

(d) -92,77%

(e) Os dados não me permite obter tal medida

13.3. Através da reta de regressão (y = 18,945 – 6,4013x) encontrada, a previsão do consumo (km/litro) de

automóveis que tem 2 toneladas, será de:

(a) 6,14 km/litro

(b) 6,54 km/litro

(c) 7,14 km/litro

(d) 7,54 km/litro

(e) Os dados não me permite obter tal previsão de consumo (km/litro)

13.4. Pelos dados apresentados no gráfico de dispersão 1, o R2 = 0,8588 significa o quê?

(a) Que a força existente entre as variáveis peso e consumo é de 85,88%

(b) Que existe 85,88% de que a previsão do consumo (km/litro) não aconteça como o previsto

(c) Que 85,88% do consumo (km/litro) que ocorrerá conforme o previsto será por causa do peso

(toneladas) dos automóveis

(d) Que 85,88% dos automóveis devem ser mais leves para consumir menos combustíveis.

(e) Que 14,12% do consumo (km/litro) que ocorrerá conforme o previsto será por causa do peso

(toneladas) dos automóveis

ASSUNTO: DISTRIBUIÇÃO DE FREQUÊNCIAS

14) O histograma abaixo apresenta a distribuição das idades de pacientes atendidos por um nutricionista

de Fortaleza.

2|---4 4|---6 6|---8 8|---10 10|---12 12|---14 14|---16

Portanto:

a) Qual a idade média dos pacientes?

b) Qual a idade modal dos pacientes?

c) Qual a idade mediana dos pacientes?

d) Pelas medidas descritivas calculadas, os dados são simétricos ou assimétricos?

e) De acordo a curtose do histograma acima, a curva é considerada mesocúrtica, platicúrtica ou

leptocúrtica?

f) Quantos pacientes têm idade entre 8 e 10 anos?

g) Quantos pacientes têm idade abaixo de 8 anos?

h) Quantos pacientes têm acima de 10 anos de idade?

15) Para as 3 distribuições abaixo foram calculadas a produção (em kg) de determinado produto

químico. O resultado foi o seguinte:

Distribuição A

Distribuição B

Distribuição C

Classes (kg) fi

Classes (kg) fi 2|--- 6 6

2|--- 6 6

6|--- 10 12

6|--- 10 30 10|--- 14 24

10|--- 14 24

14|--- 18 12

14|--- 18 30

14|--- 18 12 18|--- 22 6

18|--- 22 6

Média = 12kg

Média = 12,9kg

Média = 11,1kg Moda = 12kg

Moda = 16kg

Moda = 8kg

Mediana = 12kg

Mediana = 13,5kg

Mediana = 10,5kg Desvio Padrão = 4,42kg Desvio Padrão = 4,2kg Desvio Padrão = 4,2kg

Assim, construa o histograma para cada uma das distribuições e verifique se são simétricas ou

assimétricas (positivas ou à direita; ou negativas ou à esquerda) através do coeficiente de assimetria de

Pearson. Para esta alternativa utilize a seguinte notação:

ModaxCA

16) Observe o histograma abaixo:

Pelo histograma apresentado, marque a única afirmação correta:

(a) O gráfico de linha apresentado nas colunas do histograma é chamado de Ogiva de Galton

(b) O gráfico de linha apresentado nas colunas do histograma é chamado de Polígono de Frequência

(c) Os valores apresentados no histograma acima de cada coluna representa o ponto médio de cada classe

(d) A quantidade de pessoas pesquisadas foi de 600 indivíduos

(e) O gráfico acima é assimétrico

2ª LISTA DE EXERCÍCIOS DE ESTATÍSTICA PARA AP2

PROBABILIDADE:

1) Os 240 cartões de um conjunto são numerados consecutivamente, de 1 a 240. Retirando-se ao acaso

um cartão desse conjunto, a probabilidade de se obter um cartão numerado com um múltiplo de 13 é?

Gabarito: 0,075

2) Quatro estudantes que chegaram atrasados no dia da prova deram a clássica desculpa do pneu furado.

Na prova de segunda chamada, o professor pediu que os estudantes identifiquem o pneu furado. Se não

houver realmente nenhum pneu furado e os estudantes responderem na base do “chute”, qual a

probabilidade de todos eles escolherem o mesmo pneu de um carro popular?

Gabarito: 1/64

3) Escolhe-se ao acaso dois números naturais (*) distintos de 1 a 100. Qual a probabilidade de que o

produto dos números escolhidos seja ímpar?

Gabarito: 0,2475

4) Dentre os números formados por três algarismos, qual é a probabilidade de encontrarmos um número

maior que 930?

Gabarito: 0,0767

5) A e B jogaram 120 partidas de xadrez e A ganhou 60 vezes, B ganhou 40 vezes e em 20 vezes ficaram

empatados. Se A e B concordam em jogar 3 partidas. Qual é a probabilidade de:

a) “A” ganhar todas as três

b) Duas partidas terminarem empatadas

c) A e B ganharem alternadamente

Gabarito: a) 0,125; b) 0,069; c) 0,134

6) Os 25.000 lugares de um estádio de futebol são numerados de 1 a 25.000. Qual a probabilidade de

escolher um lugar numerado com um número múltiplo de 14?

Gabarito: 0,0714

7) A seguinte tabela mostra a distribuição dos tipos de sangue na população para uma amostra de 1000

pessoas:

Fator/Tipo A B AB O Total

RH positivo 340 90 40 380 850

RH negativo 60 20 10 60 150

Total 400 110 50 440 1.000

c) Sabendo-se que a pessoa tem fator (RH negativo) qual é a probabilidade de que ela tenha o sangue tipo

d) Sabendo-se que a pessoa tenha o sangue tipo A, qual a probabilidade de que ela tenha o fator RH

positivo?

e) Calcule a probabilidade de P(A B):

Gabarito: a) 0,05; b) 0,38; c) 0,133; d) 0,85; e) 0

8) Numa urna há 6 bolas azuis numeradas de 1 a 6 e cinco bolas verdes numeradas de 1 a 5. Extraindo ao

acaso uma bola, qual a probabilidade de sair uma bola azul ou com número ímpar?

Gabarito: 0,818

9) Sejam A e B eventos tais que P(A) = 0,2, P(B) = p, P(AB) = 0,6. Calcular p considerando A e B:

a) mutuamente exclusivos

b) Independentes

Gabarito: a) 0,4; b) 0,5

10) Em dois lançamentos sucessivos de uma moeda, sabe-se que pelo menos numa das vezes deu cara.

Qual a probabilidade de ter dado cara ambas vezes?

Gabarito: 0,3333

11) De uma classe onde há 15 rapazes e 35 moças serão escolhidos dois alunos ao acaso. Qual a

probabilidade de:

a) seres escolhidos duas moças?

b) serem escolhidos um rapaz e uma moça, em qualquer ordem?

Gabarito: a) 0,4857; b) 0,4285

12) Quais dos valores abaixo não pode ser probabilidade?

a) ( ) 0; b) ( ) 0,0001; c) ( ) -0,2; d) ( ) 3/2; e) ( ) 2/3; f) ( ) 2 ; g) ( ) 2,0

a) Determine a probabilidade de uma pessoa selecionada

ter o sangue tipo AB?

b) Determine a probabilidade de uma pessoa selecionada

ter o sangue tipo O e fator RH positivo

13) Fazendo os lançamentos sucessivos de um dado durante um jogo. Se cair a face 6, o jogo é

automaticamente parado. Qual a probabilidade que na terceira tentativa o jogo seja finalizado?

Gabarito: 0,116

14) Os alunos André e Bruno tentam, independente, solucionar um problema de Estatística. A

probabilidade de que André o resolva é 1/4 e a de Bruno é de 1/5. Qual a probabilidade de que:

a) Somente André resolva o problema

b) Somente Bruno resolva o problema

c) Exatamente um resolva o problema

d) Os dois resolvam o problema

e) O problema seja resolvido

f) O problema não seja resolvido

Gabarito: a)1/5; b)3/20; c)7/20; d)1/20; e)2/5; f) 3/5

15) Em uma locadora de carro, de cada 100 veículos 30 são de 4 portas e 20 têm motor a gasolina. Se de

cada 100 veículos, 5 são a gasolina e têm 4 portas, qual a probabilidade de carros na locadora que não são

a gasolina e nem tem 4 portas?

Gabarito: 0,55

16) Alguns atletas participam de um triathon (prova formada por 3 etapas consecutivas: natação, corrida e

ciclismo). A probabilidade de que um atleta escolhido ao acaso termine a primeira etapa (natação) é 4/7.

Para continuar na competição com a segunda etapa (corrida) o atleta precisa ter terminado a natação. Dos

atletas que terminam a primeira etapa, a probabilidade de que um deles, escolhidos ao acaso, termine a

segunda é ¾. Qual a probabilidade de que um atleta que iniciou a prova, e seja escolhido ao acaso,

termine a primeira e a segunda etapa?

Gabarito: 3/7

17) Na Copa do Mundo de 2014, no primeiro jogo de abertura o Brasil jogou contra a Croácia. No

primeiro tempo, a seleção brasileira cometeu 10 faltas, sendo que 3 foram cometidas por Neymar e outras

3 por Fred. No intervalo, os melhores lances foram reprisados, dentre os quais uma falta cometida pelo

Brasil, escolhida ao acaso. Qual a probabilidade de que a falta escolhida seja de Neymar ou de Fred?

Gabarito: 0,6

DISTRIBUIÇÃO NORMAL:

18) Uma fábrica de carros sabe que os motores de sua fabricação têm duração normal com média de

150.000 Km e desvio padrão de 5.000 Km. Qual a probabilidade de que um carro, escolhido ao acaso, dos

fabricados por essa firma, tenha um motor que dure:

a) Menos de 170.000 Km:

b) Entre 140.000 Km e 165.000 Km?

Gabarito: a) 0,999; b) 0,9759

19) Suponha que o tempo necessário para que os usuários de uma biblioteca de uma empresa pública de

Fortaleza leva para encontrar uma determinada informação que deseja utilizando um novo sistema

computacional segue uma distribuição normal com média de 8 minutos e desvio padrão de 2 minutos.

Assim, calcule:

a) A probabilidade de um usuário qualquer levar mais de 8 minutos para encontrar a informação desejada.

b) Existe a possibilidade de um usuário levar menos de 1 minuto para encontrar a informação desejada?

Se sim, qual é essa probabilidade?

Gabarito: a) 0,5; b) 0,0001; b)

20) O tráfego aéreo (número de aterrissagens e decolagens) no Aeroporto Internacional de Fortaleza

durante a “hora de pico” é uma variável aleatória normal com média de 80 aviões por hora e desvio

padrão de 10 aviões por hora. Se a capacidade atual de tráfego aéreo no aeroporto é de 90 aviões por hora,

qual é a probabilidade de ocorrer congestionamento do tráfego aéreo?

Gabarito:

Notas de Aula Estatística para concursos

Documents

Transcript of Notas de Aula Estatística para concursos

Estatística para Concursos

Ponto dos Concursos - Estatística e Matemática Financeira em Exercícios ESAF

SUA PROVA INFORMAÇÕES GERAIS - Fonte Concursos · Instituto Brasileiro de Geografia e Estatística 60 Concurso Público 2016 TARDE Prova Objetiva Nível– Superior TECNOLOGISTA

PREFEITURA MUNICIPAL DE CRISTINÁPOLIS EDITAL DE ABERTURAfundatec.org.br/portal/concursos/editais/edital_1_5dbc73f360dc3.pdf · Consulta às Notas Preliminares da Prova de Títulos

Probabilidades e Estatística - Notas de apoio às aulas teóricas - Paulo Soares

Ca2 Estatística Descritiva 2 › ticiana › Arquivos › Prob%20e%20Estat... · 2015-02-07 · Capítulo 2 - Estatística Descritiva Notas de Aula - Profª Ticiana Marinho de Carvalho

PROCESSO SELETIVO SIMPLIFICADO - Ok Concursos · 1 PROCESSO SELETIVO SIMPLIFICADO EDITAL Nº 01/2016 A Presidente da FUNDAÇÃO INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA -

CONCURSO PÚBLICO DO DEPARTAMENTO ESTADUAL DE …publicacoes.fundatec.com.br/home/portal/concursos/239/Notas... · Certificado de curso do DETRAN “Identificação Veicular e de

355stica Notas de Aulas.doc) stica – Notas de Aulas Professor Inácio Andruski Guimarães, DSc. 2 SUMÁRIO 1 CONCEITOS BÁSICOS 5 1.1 Estatística ... Em primeiro lugar,

Nota EMATER / Gestão Concurso - Questões de Concursos · instituto brasileiro de geografia e estatÍstica – ibge. pesquisa de orçamento familiar ... conhecimentos especÍficos

Concurso Público 01/2011 EDITAL N.º 155/2011 – Notas ...publicacoes.fundatec.com.br/home/portal/concursos/177/Edital_155… · EDITAL N.º 155/2011 – Notas Preliminares da Prova

TESTES DE HIPÓTESES - paginas.fe.up.ptpaginas.fe.up.pt/~imf/aulas_pest/uploads/imf_pest_15.pdf · NOTAS: • A hipótese ... CÁLCULO DA ESTATÍSTICA DE TESTE E TOMADA DE DECISÃO

Estatística · 2020-01-04 · Exemplo de Teste de Hipóteses Experiência passada mostrou que as notas de Estatística, estão normalmente distribuídas com média μ = 5,5 e desvio

ESTATÍSTICA BÁSICA AULA 06 - NOTAS DE AULA | Pedras no ... · aula 06 tÁ na mÉdia! filipe s. martins. estatÍsticaestatÍstica -- roteiro roteiro distribuiÇÃodistribuiÇÃo

Estatística - MatVirtual / MatVirtualmatvirtual.pbworks.com/w/file/fetch/59635285/Aula_6_Medidas_Disper.pdf · notas de três competidores, vamos calcular seus desvios médios. Competidor

Gabarito Definitivo - Retificadoinstitutoaocp.org.br/concursos/arquivos/gab_def_ibge.pdf · página 1 de 27 fundaÇÃo instituto brasileiro de geografia e estatÍstica – ibge processo

A , torna público as NOTAS - docs.static.ibamsp-concursos ...docs.static.ibamsp-concursos.org.br/255/Edital Notas - CP 04.pdf · mÔnica almeida de souza 21,00 041291 299324680 nadime

ESTATÍSTICA DE CANDIDATOS/VAGA POR CURSO …€¦ · universidade estadual do maranhÃo - uema assessoria de concursos e seletivos da reitoria - ascons divisÃo de operaÇÃo de

APOSTILA ESTATÍSTICA (2016.2) VF - daskalos.com.brdaskalos.com.br/apostilas_arquivo/apostila_estatistica.pdf · ... Os dados abaixo são as notas de alguns alunos, ... A primeira

ESTATÍSTICA - Zero Um Concursos · Estatística descritiva e Análise Exploratória de Dados Professor Breno Galvão ûcesse ouros coneos: 10 15. (CESPE/BACEN/2013) 2 4 8 4 8 1 2