Livro Estatística Probabilidades EAD

download Livro Estatística Probabilidades EAD

of 173

Transcript of Livro Estatística Probabilidades EAD

  • 8/18/2019 Livro Estatística Probabilidades EAD

    1/173

  • 8/18/2019 Livro Estatística Probabilidades EAD

    2/173

    Bráulio Roberto Gonçalves Marinho Couto

    Janaína Giovani Noronha de Oliveira

    Octávio Alcântara Torres

    Reinaldo Carvalho de Morais

    ESTATÍSTICA E PROBABILIDADES

    Belo Horizonte

    Junho de 2015

  • 8/18/2019 Livro Estatística Probabilidades EAD

    3/173

    COPYRIGHT © 2015

    GRUPO ĂNIMA EDUCAÇÃOTodos os direitos reservados ao:

    Grupo Ănima Educação

    Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização

    por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios

    empregados: eletrônicos, mecânicos, fotográcos, gravações ou quaisquer outros.

    Edição

    Grupo Ănima Educação

    Vice Presidência

    Arthur Sperandeo de Macedo

    Coordenação de Produção

    Gislene Garcia Nora de Oliveira

    Ilustração e Capa

    Alexandre de Souza Paz Monsserrate

    Leonardo Antonio Aguiar

    Equipe EaD

  • 8/18/2019 Livro Estatística Probabilidades EAD

    4/173

    CONHEÇAO AUTOR

    CONHEÇAA AUTORA

    Bráulio Roberto Gonçalves Marinho Couto é

    doutor em Bioinformática, mestre em Ciência

    da Computação, especialista em Estatística,

    bacharel em Engenharia Química e técnicoem Química. Atuante nas áreas de Estatística,

    Cálculo Numérico, Informática em Saúde,

    Epidemiologia Hospitalar e Bioinformática.

    Professor do Centro Universitário de Belo

    Horizonte (UniBH).

    Janaína Giovani Noronha de Oliveira

    é mestre em Estatística e graduada

    em Licenciatura em Matemática com

    Habilitação em Física. Possui experiênciacomo docente na área de Matemática

    e Estatística do Ensino superior e

    médio. Experiência com orientação de

    Monograas.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    5/173

  • 8/18/2019 Livro Estatística Probabilidades EAD

    6/173

    Egressos de cursos de Engenharia e

    Tecnologia são prossionais que resolvem

    problemas. E como isso ocorre? Pela

    aplicação eciente do método cientíco.

    Pois bem, é disso que se trata essa

    disciplina: apresentar ferramentas

    estatísticas que possibilitarão a você

    transformar-se num especialista emqualquer área do conhecimento e, portanto,

    apto a resolver problemas. A disciplina é

    dividida em oito unidades cujo objetivo é

    introduzir o aluno na área da Estatística

    e Probabilidades, tornando-o capaz de

    planejar e de executar experimentos de

    pequeno e médio porte nas áreas de

    Ciências Exatas e de Engenharia. Além de

    fazer a análise exploratória dos dados e de

    realizar inferências, por meio da tomada de

    decisão na presença de incerteza.

    A Unidade 1 apresenta denições

    fundamentais para a correta compreensão

    do processo de coleta e de análise de dados.Conceitos sobre população e amostra,

    censo e amostragem, e variáveis são

    discutidos nessa unidade. A Unidade 2 trata

    da análise exploratória de dados, quando

    são apresentadas técnicas de Estatística

    Descritiva. O objeto dessa unidade,

    bastante intuitiva, é trabalhar a síntese

    numérica, gráca e tabular dos dados.

    A ideia é usar ferramentas como o Excel

    para construir tabelas e grácos, como

    histograma, diagrama de dispersão, Pareto

    e calcular valores como média, mediana,

    desvio padrão, e coeciente de variação.

    Na Unidade 3 são introduzidos conceitos

    básicos de probabilidades, cruciais para

    que se entenda o processo de tomadade decisão na presença de incerteza. A

    Unidade 4 é uma continuação da terceira

    unidade, são apresentados os modelos

    probabilísticos mais importantes para se

    modelar problemas de pequeno e médio

    porte na área de Engenharia e Tecnologia.

    A partir da Unidade 5 caminhamos para

    a área “nobre” da Estatística, que envolve

    as inferências, isto é, o processo de

    generalização de resultados parciais,

    observados em amostras, para toda a

    população envolvida num problema. Nessa

    unidade é discutida a forma de obter os

    intervalos de conança, tanto para médiaquanto para proporção. Na Unidade 5

    discute-se, por exemplo, como o resultado

    de uma pesquisa eleitoral é calculado e o

    signicado do intervalo denido pela soma

    e subtração de uma “margem de erro”.

    A Unidade 6 é voltada para o planejamento

    de experimentos, quando é apresentado,

    APRESENTAÇÃO DA DISCIPLINA

  • 8/18/2019 Livro Estatística Probabilidades EAD

    7/173

    por exemplo, como calcular o tamanho

    de uma amostra. Em alguns livros este

    item é colocado na primeira unidade, o

    que tem certa lógica por tratar da coleta

    de dados, primeira etapa de qualquer

    análise estatística. Entretanto, como são

    necessários conceitos probabilísticos e de

    inferência para entender o planejamento

    de experimentos, optamos por colocar

    essa unidade logo após a discussão sobre

    intervalos de conança.

    As Unidades 7 e 8 fecham a disciplina,

    apresentado as ferramentas mais úteis

    para que você nalmente se transforme

    num especialista em uma área qualquer e,

    portanto, realmente apto a resolver seus

    problemas. Na Unidade 7 são discutidos

    os métodos para fazer e interpretar testesde hipóteses, num contexto uni variado

    e, na Unidade 8, discute-se métodos de

    correlação e regressão, introduzindo a

    análise multivariada.

    Ao longo das oito unidades, procuraremos

    apresentar uma abordagem baseada

    em PPL – Aprendizagem Baseada em

    Problemas, além de usarmos como

    ferramentas computacionais o Microsoft®

    Excel  e o software  de domínio público,

    EpiInfo.

    Bom trabalho!

    Bráulio, Janaína, Octávio e Reinaldo.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    8/173

    UNIDADE 1 003

    Introdução à Estatística  004Conceitos básicos 006O papel das variáveis numa base de dados: identicação,auxiliares, variáveis explicativas e variável reposta (desfecho) 010Tipos de variáves 013Uso do excel como um sistema de gerenciamento de dadose dos formulários do google docs para coleta de informações 015Revisão 017

    UNIDADE 2 019Análise exploratória de dados 020Síntese gráca de dados 021Síntese tabulador de dados 038Síntese numérica de dados 038Revisão 048

    UNIDADE 3 049Introdução à teoria de probabilidades 050Probabilidade clássica e probabilidade frequentista 053Leis básicas de probabilidade 053União e interseção de eventos 054Tabelas de contigência 056Eventos independentes 057Teorema de Bayes 058Revisão 061

    UNIDADE 4 063Modelos probabilísticos 064Varieaveis aleatórias 065Modelos probabilísticos 071Distribuição binomial 071Distribuição Poisson 072Distribuição normal 072Revisão 076

  • 8/18/2019 Livro Estatística Probabilidades EAD

    9/173

    UNIDADE 5 077Estimação de médias e proporções 078Teorema central do limite 079Estimação pontual e por intervalos de conança para umamédia populacional 082

    Estimação pontual e por intervalos de conança para umaproporção populacional 089Uso do excel no cálculo de intervalos de conança paramédia e proporção 091Introdução ao programa Epiinfo 094Revisão 095

    UNIDADE 6 098Planejamento de experimentos 099Cálculo de tamanho de amostra baseado em intervalos

    de conança para uma proporção 100 Cálculo de tamanho de amostra baseado em intervalosde conança para uma média 103Planejamento de experimentos 106Revisão 113

    UNIDADE 7 115

    Testes de hipóteses 116A construção e o signicado de uma hipótese estatística 117Testes para uma amostra 118Testes para duas ou mais amostras 133Revisão 137

    UNIDADE 8 139Análise de correlação e regressão 140Análise de correlação 141Regressão linear simples 149Regressão linear múltipla 157Revisão 160

     REFERÊNCIAS 117

  • 8/18/2019 Livro Estatística Probabilidades EAD

    10/173

  • 8/18/2019 Livro Estatística Probabilidades EAD

    11/173unidade 1

    004

    INTRODUÇÃO ÀESTATÍSTICA

    Podemos entender o método estatístico como um processo para obter, apresentar e

    analisar características ou valores numéricos, identicando padrões que possibilitam

    a tomada de decisão em situações de incerteza. Pode acreditar, se você aplicar o

    método estatístico para a análise e solução de problemas, muito rapidamente se tornará um

    especialista de qualquer área do conhecimento! Num mundo real, completamente cercado

    de incertezas, ser capaz de identifcar padrões de comportamento  de pessoas, projetos,

    produtos, serviços, etc pode transformá-lo num “mago”.

    Entretanto, antes de você transformar-se num “mago”, é necessário um entendimento

    adequado do método estatístico, que tem suas “armadilhas”. Costumo dizer que Estatística não

    é Matemática... é muito mais “difícil”. Na verdade, Estatística é uma das áreas da Matemática 

    que, por sinal, é a Ciência cuja aplicação no mundo real possibilitou ter uma vida incrivelmente

    confortável. Bom, quando armo que “Estatística não é Matemática”, quero dizer que, na

    Matemática que você aprendeu no Ensino Fundamental e Médio, os problemas têm usualmenteuma única forma de serem resolvidos e devem todos chegar ao mesmo resultado (uma única

    resposta correta). Na Estatística, os problemas têm várias formas de serem resolvidos, podem

    chegar a resultados diferentes e todos estão corretos! Isso ocorre porque a Estatística requer

    a habilidade de considerarmos as coisas dentro de uma perspectiva probabilística, o que vai

    completamente contra a conceituação usual dos problemas em simplesmente certo ou errado.

    Não buscaremos a “verdade absoluta”, mas padrões de comportamento que nos possibilitarão

    tomar decisões com alto grau de conança.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    12/173

    ESTATÍSTICA E PROBABILIDADES

    unidade 1

    005

    Para melhor entendermos o que será discutido, o método estatístico será dividido em quatro

    grandes áreas:

    1) amostragem e coleta de dados;

    2) análise exploratória de dados (estatística descritiva);

    3) teoria de probabilidades;

    4) decisão na presença de incerteza (inferência).

    A ideia por trás dessa unidade é levar até você o conhecimento fundamental que lhe permitirá

    entender a coleta de dados. Estudaremos conceitos fundamentais de Estatística, questõessimples, mas essenciais para que tenhamos sucesso nas outras etapas do método estatístico,

    que serão discutidas nas próximas unidades. Estes são os objetivos da Unidade 1:

    a) apresentar conceitos básicos de Estatística e Probabilidades;

    b) identicar as funções e os principais tipos de dados e de variáveis;

    c) identicar e corrigir problemas de dados faltantes (missing);

    d) congurar o Excel como instrumento de coleta de dados;

    e) entender o sistema de endereçamento de células do Excel.

    f) construir formulários de coleta de dados no Google Docs;

    g) enviar formulários de coleta de dados por meio de mala direta.

    É crucial que você entenda os conceitos que serão discutidos nessa unidade. Sem oentendimento do que seja, por exemplo, uma variável, o seu tipo e a sua função na base de

    dados, não há como você ser feliz nas outras etapas do processo!

  • 8/18/2019 Livro Estatística Probabilidades EAD

    13/173

    ESTATÍSTICA E PROBABILIDADES

    unidade 1

    006

    CONCEITOSBÁSICOS

    Vamos supor que uma cozinheira esteja

    preparando dois litros de sopa.

    Como ela sabe se a sopa está temperada?

    Os dois litros de sopa formam a população 

    e, se a cozinheira comer/provar toda a sopa,

    estará fazendo um censo, o que geraria um

    absurdo do tipo “É, a sopa estava ótima!”.

    A cozinheira sabe que em experimentos

    baseados em ensaios destrutivos, quando

    a própria análise destrói o dado coletado, ocenso é um absurdo. Na verdade, ela sabe

    que censos, de modo geral, são inviáveis,

    muito caros e/ou muito demorados. Mais

    ainda, ela sabe que se usar uma pequena 

    amostra cuidadosamente retirada, chamada

    amostra representativa,  poderá tomar

    decisões sobre toda a população envolvida

    no problema com um alto grau de conança.

    A cozinheira então retira uma pequena

    amostra, uma “pitada” da comida, prova-a

    e generaliza o resultado para toda a sopa.

    Isso é chamado de  inferência:  tomar

    decisões sobre toda uma população com

    base em informações parciais de umaamostra (veja a FIGURA 1).

    Entretanto, a cozinheira sabe que para fazer

    inferências válidas, deve tomar cuidado

    para não trabalhar com amostras viciadas.

    E o que seria isso?

    Se ela retirar uma amostra somente da

    parte de cima da sopa, muito provavelmente

    terá uma amostra viciada, isto é, sem

    representantes de todos os componentes

    da sopa como um todo que, neste caso, é a

    população amostrada.

    E como ela retira uma amostra

    representativa da sua população (“sopa”)?

    Como a cozinheira procede para obter uma

    amostra com “representantes” de cada

    estrato da sopa?

    Simples, ela mistura a sopa fazendo umahomogeneização e sorteia uma porção/

    pitada que será usada no seu processo

    decisório. Fazendo uma amostragem

    aleatória, a cozinheira sabe que terá

    grande chance de trabalhar com amostras

    representativas. 

    Podemos agora resumir esses conceitos.

    População:

    a) consiste na totalidade das unidades de

    observação a partir dos quais ou sobre

    os quais deseja tomar uma decisão;

    b) conjunto de elementos que formam ouniverso do nosso estudo e que são

    Você sabe o que é população? E

    amostra? Vejamos o exemplo a seguir.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    14/173

    ESTATÍSTICA E PROBABILIDADES

    unidade 1

    007

    passíveis de serem observados;

    c) conjunto de indivíduos sobre os quais

    recairão todas as generalizações das

    conclusões obtidas no estudo;

    d) usualmente, as unidades de observações

    são pessoas, objetos ou eventos;

    e) é o universo a ser amostrado;

    f) do ponto de vista matemático, a população

    é denida como um conjunto de

    elementos que possuem pelo menos uma

    característica em comum (SILVA, 2001).

    População nita: o número de unidades de

    observação pode ser contado e é limitado.

    Exemplos:

    a) alunos matriculados na disciplina

    Estatística e Probabilidades;

    b) todas as declarações de renda recebidas

    pela Receita Federal;

    c) todas as pessoas que compram telefone

    celular num determinado ano;

    d) um lote com N produtos.

    População innita:  a quantidade de

    unidades de observação é ilimitada, ou

    a sua composição é tal que as unidades

    da população não podem ser contadas.

    Exemplos:

    a) conjunto de medidas de determinado

    comprimento;

    b) gases, líquidos e alguns sólidos em

    que as suas unidades não podem ser

    identicadas e contadas.

    Amostra:  conjunto de unidades

    selecionadas de uma população, ou seja,

    uma parte dos elementos da população.

    Amostra representativa: é uma versão

    em miniatura da população, exatamente

    como ela é, somente menor. A amostrarepresentativa segue o modelo populacional,

    tal que suas características importantes

    são distribuídas similarmente entre ambos

    os grupos.

    Unidade amostral: é a menor parte distinta

    de uma população, identicável para ns de

    seleção e construção da amostra.

    Amostra aleatória: é aquela obtida por meio

    de um processo de sorteio ou aleatorização.

    Amostra viciada: é aquela que representa

    apenas parte da população, não possuindo

    elementos de todos os estratos ousubconjuntos que formam a população

    como um todo.

    Censo:  exame de todas as unidades de

    observação de uma população. Como

    discutido no exemplo da cozinheira, se

    a pesquisa envolve ensaio destrutivo, o

    censo é inviável. Na verdade, somente se a

  • 8/18/2019 Livro Estatística Probabilidades EAD

    15/173

    ESTATÍSTICA E PROBABILIDADES

    unidade 1

    008

    FIGURA 1 - População alvo, população amostrada e amostra

    População alvo do estudo

    Amostra

    População

    amostradaInferência

    Fonte: Elaborado pelo autor.

    Inferir significa generalizar resultados de uma amostra para toda a população.

    Por que usar amostras? Por que não incluir no estudo todos os indivíduos da população?

    A amostragem deve ser usada porque torna o processo eficiente e preciso. E ela

    é eficiente, uma vez que o recurso que poderia ser despendido na coleta de dados

    desnecessários de um grande número de indivíduos pode ser gasto em outra atividade,

    como na monitoração da qualidade da própria coleta dos dados. As amostras, por serem

    menores que a população, podem ser estudadas mais rapidamente que censos e são

    também mais baratas. Além disso, se o processo de amostragem gerar uma amostra

    representativa da população alvo do estudo, os resultados observados poderão ser

    generalizados, sem risco de chegar a uma conclusão diferente daquela que seria obtidase trabalhar com toda a população.

    população alvo for pequena é razoável observá-la por inteiro, através do censo, pois mesmo

    quando viáveis, censos são caros e demorados. Outros exemplos de ensaios destrutivos, nos

    quais é impossível aplicar censo: pesquisa sobre a força de tração de um lote de barras de

    aço para construção; pesquisa sobre contaminação de soro siológico em um lote; testes de

    resistência e durabilidade de um lote de concreto; tempo de pega de um lote de cimento.

    Amostragem: processo pelo qual uma amostra de unidades da população é retirada e

    observada. É a parte mais importante do processo de pesquisa. O principal e fundamental

    objetivo de qualquer plano de amostragem  é selecionar a amostra, de tal maneira que ela

    retrate elmente a população pesquisada.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    16/173

    ESTATÍSTICA E PROBABILIDADES

    unidade 1

    009

    Vejamos agora alguns aspectos

    relevantes para o campo da amostragem.

    São eles:

    • Questões da amostragem:  Qual

    o tamanho da amostra? Como

    a amostra será obtida? Como

    garantir que a amostra obtida

    seja representante da população

    objeto do estudo? A questão mais

    importante não é o seu tamanho,

    mas como a amostra será obtida,pois a amostragem mal feita

    invalida qualquer pesquisa.

    • Tamanho da amostra (n):  está

    relacionado ao total de unidades

    amostradas, usadas no processo

    de inferência. Imagino que

    você esteja curioso em relaçãoao tamanho da amostra, mas,

    como citado anteriormente,

    esta não é de longe a questão

    mais importante. Por exemplo,

    o que você que teria mais

    credibilidade numa pesquisa

    sobre a aceitação (ou não) do

    aborto por parte da população

    brasileira: resultados de pesquisa

    realizada no domingo à noite por

    uma emissora de TV, envolvendo

    milhões de pessoas que, após

    assistirem a uma reportagem

    sobre o assunto, responderam

    à pesquisa; ou resultados deuma amostra de 2.500 pessoas

    selecionadas aleatoriamente no

    território brasileiro?

    No entanto, essa não é uma questão

    muito importante para obtermos o

    tamanho da amostra adequada para

    uma pesquisa, visto que é necessário

    estudarmos alguns conceitos

    probabilísticos, que serão apresentadas

    somente nas próximas unidades.

    IMPORTANTE

    A maioria das pessoas, quando questionadas

    sobre qual o tamanho da amostra necessária

    para uma pesquisa, tem o raciocínio equivocado

    de que o tamanho da amostra (n)  tem relaçãodireta com o tamanho da população amostrada

    (N). Inevitavelmente, a maioria das pessoas

    arma erroneamente que uma boa amostra deve

    conter pelo menos, digamos, 30% da população.

    O que a cozinheira diria disto? Para provar dois

    litros de sopa, quanto de amostra ela teria que

    avaliar? Isso mesmo, uma pitada. E para provar

    400 litros de sopa, ela beberia um prato inteiro?

    Não. Ela provará a mesma pitada, pois sabe que, o

    mais importante nesse processo inferencial não é

    o tamanho da amostra, mas provar uma amostra

    não viciada, representativa de toda a sopa.

    Voltando aos processos de amostragem,

    as amostras podem ser classicadas emprobabilísticas e não probabilísticas:

  • 8/18/2019 Livro Estatística Probabilidades EAD

    17/173

    ESTATÍSTICA E PROBABILIDADES

    unidade 1

    010

    Amostra probabilística:

    - existe uma garantia, em termos de

    probabilidade, de que qualquer membro

    da população possa ser selecionado para

    amostra.

    Amostra não probabilística:

    - os elementos da amostra não são

    escolhidos por meio de um sorteio.

    CARVALHO e COUTO (2003) apresentam

    as principais características de tipos de

    amostragem mais comuns, relacionados

    principalmente com pesquisas de survey.

    Outras amostras, por exemplo, amostragem

    de minério, de solo, de gases e de líquidos

    têm procedimentos próprios que buscam,

    em última instância, obter amostras que

    sejam representativas de cada populaçãoenvolvida. Em suma, qualquer que seja o

    esquema de amostragem, probabilístico ou

    não, deve-se sempre garantir que a amostra

    reflita as características da população da

    qual foi retirada.

    LEMBRE

    Conforme discutido anteriormente, algumas

    pessoas acreditam que uma amostra

    representativa é necessária coletar dados

    de um percentual mínimo da população,

    digamos, 30% do total de indivíduos. Isso éabsolutamente falso e, o que é pior, mesmo

    que fossem analisados tal percentual de

    indivíduos da população, não é o tamanho

    que garante representatividade da

    amostra, mas a forma com ela é obtida. É

    a imparcialidade do processo de seleção

    dos seus elementos e a homogeneidade

    da distribuição das características da

    amostra e da população que garantem a

    representatividade da amostra.

    O PAPEL DAS VARIÁVEISNUMA BASE DE DADOS:IDENTIFICAÇÃO,AUXILIARES,VARIÁVEISEXPLICATIVAS EVARIÁVEL REPOSTA

    (DESFECHO)O primeiro passo de qualquer processo

    estatístico é a  coleta de dados. Portanto,

    tudo o mais será alicerçado sobre o que

    for coletado. Sendo assim, essa fase deve

    ser cuidadosamente planejada, já que da

    qualidade dos dados coletados  dependerá

    toda a análise e a tomada de decisão

    subsequente.

    Antes da coleta de um dado, é importante

    entender o conceito de variável  que está

    por trás da informação que você procura.

    A variável contém a informação que você

    quer analisar, sob a forma de uma medição

    sobre determinadas características dos

  • 8/18/2019 Livro Estatística Probabilidades EAD

    18/173

    ESTATÍSTICA E PROBABILIDADES

    unidade 1

    011

    indivíduos estudados e das unidades de

    observação.

    E, por que esse conceito é tão importante?

    Porque, no m das contas, é a variável

    que é analisada e não a informação que

    ela contém. Por isso, é importante que

    você, antes de sair coletando informações,

    analise o seu questionário de coleta de

    dados, identique cada variável envolvida

    e responda perguntas, tais como: O que

    exatamente a variável está medindo? Para

    que serve esta variável e, principalmente,

    é possível analisá-la? E com que método

    estatístico?

    CONCEITO

    Uma variável  é a quanticação de uma

    característica de interesse da pesquisa (SOARES

    e SIQUEIRA, 2002). Refere-se ao fenômeno a ser

    pesquisado. É o campo de variação de cada tipo

    de dado a ser pesquisado. Observe que, como o

    próprio nome diz, uma variável deve variar, ou seja,

    se você está coletando dados sobre característicasde alunos da disciplina Cálculo Diferencial,

    podemos pensar em inúmeras variáveis para a

    unidade de observação “aluno”: idade, sexo, curso,

    local do ensino médio, tempo entre nal do ensino

    médio e início da graduação, nota nal, percentual

    de presença às aulas etc. Entretanto, o tipo de

    disciplina não é uma variável nesse caso, pois ela é

    constante (Cálculo Diferencial).

    O grau de variabilidade  de uma variável é

    chave no método estatístico e será foco

    de discussões nas próximas unidades.

    Entretanto, neste momento, é crucial que

    você entenda dois aspectos básicos de

    qualquer variável: o seu tipo e a sua função,

    o papel que ela exerce na base de dados.

    ATENÇÃO

    Toda análise que será feita na base de dados

    dependerá do seu entendimento sobre o tipo e a

    função de cada variável coletada!

    Vejamos os tipos de funções de cada

    variável:

  • 8/18/2019 Livro Estatística Probabilidades EAD

    19/173

    ESTATÍSTICA E PROBABILIDADES

    unidade 1

    012

    QUADRO 1 - O papel de uma variável numa base de dados.

    Fonte: Elaborado pelo autor.

    Variáveis deidenticação e auxiliares

    Variáveis explicativas

    Variável desfecho

    Servem para o rastreamento dos indivíduos e das unidadesamostrais, ou são usadas na denição de outras variáveis. Exemplosde variáveis de identicação: CPF, nome, número de matrícula,número da amostra etc.

    Exemplos de variáveis auxiliares: datas, peso e altura.

    Variáveis de identicação e auxiliares não são analisadas, masfazem parte da base de dados.

    São aquelas que, por hipótese, podem influenciar, determinar ouafetar a variável resposta ou desfecho da pesquisa. São chamadastambém de co-variáveis ou variáveis independentes.

    Para cada estudo existem variáveis explicativas próprias, denidaspor hipóteses da própria pesquisa ou conforme revisão da literatura.Em processos químicos, quando se busca entender os fatores queafetam o rendimento de uma reação química, são exemplos devariáveis explicativas a temperatura, a pressão, o tipo de catalisadore a concentração de reagentes. Se alguém pesquisar sobre asrazões de algumas pessoas serem maiores que outras, as alturasdo pai e da mãe, a origem étnica, a idade e o sexo são exemplos devariáveis explicativas.

    É aquela que queremos explicar, em função de ser influenciada,

    afetada por outros fatores (variáveis explicativas). Tambémdenominada de variável dependente ou variável resposta. Sempredena um ou mais desfechos para o estudo, conforme os objetivosda sua pesquisa. Por exemplo, numa pesquisa cujo objetivo éexplicar porque imóveis de uma mesma região têm preços tãovariados, o preço de venda seria uma variável resposta. Fatorescomo área, número de quatros, número e tipo de vaga de garagem,quantidade de suítes, presença de salão de festas ou piscina sãoalgumas das possíveis variáveis explicativas para esse problema.

    TIPOS CARACTERÍSTICAS

    A função de cada variável na base de dados, assim como o seu tipo, denirá que tipo de análise

    será feita. Não subestime esses conceitos pois, sem eles, não há como entender os métodos

    de análise estatística que serão estuados nas próximas unidades.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    20/173

  • 8/18/2019 Livro Estatística Probabilidades EAD

    21/173

  • 8/18/2019 Livro Estatística Probabilidades EAD

    22/173

    ESTATÍSTICA E PROBABILIDADES

    unidade 1

    015

    USO DO EXCEL COMOUM SISTEMA DEGERENCIAMENTO DEDADOS E DOSFORMULÁRIOSDO GOOGLE DOCSPARA COLETA DEINFORMAÇÕES

    Duas ferramentas essenciais para coleta

    de dados de experimentos de pequenoe médio porte na área de Ciências

    Exatas e Engenharia são o  Excel,  um dos

    componentes do pacote Ofce da Microsoft,

    e os Formulários do Google Docs  .

    O Excel é uma planilha eletrônica com

    origens no Lotus 1-2-3 (GAZZARRRINI,

    2013). Ambas as ferramentas são

    extremamente práticas, de grande utilidade

    e serão discutidas por meio de vídeo aulas.

    Os formulários do Google Docs são ótimos

    para pesquisas envolvendo pessoas que

    têm endereço eletrônico (e-mails). Parausá-los você terá que obter uma lista com os

    nomes dos respondentes e os respectivos

    e-mails. Após construir o formulário de

    coleta de dados no Google Docs, você

    poderá enviá-lo usando o mecanismo de

    “mala direta”, da aba “correspondências”

    do Word,  que também é parte do pacote

    Ofce da Microsoft . As respostas enviadas

    pelos respondentes são automaticamente

    armazenadas em planilha eletrônica,

    facilitando a coleta e a análise dos dados.

    É crucial que você domine o Excel  como

    instrumento de coleta de dados e entenda

    perfeitamente o papel de cada variável a ser

    coletada. Identicar variáveis explicativas

    e desfecho (s), distinguir entre variável

    quantitativa e categórica é uma questão

    relativamente simples, mas fundamental

    para as discussões que serão feitas nas

    próximas unidades.

    APLICAÇÃO PRÁTICA

    Considere o artigo “Utilização de efluente de

    frigoríco, tratado com macróta aquática,

    no cultivo de tilápia do Nilo”, de autoria de

    Adilson Reidel e outros pesquisadores da

    Universidade Estadual do Oeste do Paraná

    (REIDEL et al.; 2005) disponível em:

    Neste trabalho, os pesquisadores zeram

    um experimento em que, resumidamente,

    foram colocadas amostras aleatórias  de

    alevinos (“lhotes”) de tilápia em aquários

    com água potável (tratamento A) e em

    tanques com efluente de frigoríco após

    passar num sistema de ltro com aguapé

    https://docs.google.com/formshttps://docs.google.com/formshttp://www.agriambi.com.br/revista/suplemento/index_arquivos/PDF/181.pdfhttp://www.agriambi.com.br/revista/suplemento/index_arquivos/PDF/181.pdfhttp://www.agriambi.com.br/revista/suplemento/index_arquivos/PDF/181.pdfhttp://www.agriambi.com.br/revista/suplemento/index_arquivos/PDF/181.pdfhttps://docs.google.com/formshttps://docs.google.com/forms

  • 8/18/2019 Livro Estatística Probabilidades EAD

    23/173

    ESTATÍSTICA E PROBABILIDADES

    unidade 1

    016

    (tratamento B), avaliando-se comparativamente o desenvolvimento e a sobrevivência dos

    peixes. A pergunta principal da pesquisa era: “É possível cultivar tilápias em efluente de

    frigoríco tratado com aguapé?”

    Nas tabelas 1 e 2 do artigo, são apresentados alguns resultados e um conjunto de variáveis

    envolvidas na pesquisa.

    TABELA 1 – Valores médios dos parâmetros físico-químicosdeterminados durante o cultivo da tilápia do Nilo (O. niloticus)

    Fonte: REIDEL et al., 2005.

    TABELA 2 – Valores médios de desempenho e sobrevivência de alevinosde tilápia do Nilo, cultivados com água potável e efluente tratado

    Fonte: REIDEL et al.; 2005.

    Esse é um exemplo prático da aplicação de conceitos discutidos na Unidade 1 em experimentos

    de pequeno e médio porte na área de Ciências Exatas e de Engenharia. O experimento é baseado

    em amostragem e analisa o impacto de variáveis explicativas em desfechos diretamente ligadosao objetivo do projeto: sobrevivência dos peixes, peso e biomassa nal no aquário.

    PARÂMETROS

    VARIÁVEIS

    TRATAMENTOS

    Tratamento A Tratamento B Teste t-StudentT calculado

    A

    média médiaO O

    B

    Temperatura média (ºC) 26,4 = 1,60 26,4 = 1,70

    Oxigienio Dissolvido (mg L-1)  7,17 = 0,60 7,18 = 0,90

    Condutividade Elétrica (uS cm-1)  227,48 = 36 1779,7 = 68

    pH 8,44 = 0,12 7,40 = 0,35

    Peso inicial (indivíduo) (g) 0,235 a 43,267 0,232 a 46,113 0

    Biomassa inicial (aquário) (g) 1,172 a 2,426 1,160 a 1,901 0,001

    Peso nal (indivíduo) (g) 1,391 a 42,269 1,054 a 45,582 0,028

    Biomassa nal (aquário) 5,280 a 38,890 4,300 a 45,721 0,028Sobrevivência (%) 75 a 80,467 80 a 25,819 0,08

    Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de

    ltro de aguapé + ração)

    Médias seguidas da mesma letra, na linha, não diferem signicadamente pelo teste t de Student ao nível 5% de signicância

  • 8/18/2019 Livro Estatística Probabilidades EAD

    24/173

    ESTATÍSTICA E PROBABILIDADES

    unidade 1

    017

    Nesse trabalho são usadas três variáveis

    resposta, uma categórica (“O peixe

    sobreviveu?” “sim ou não”) e dois desfechos

    quantitativos (peso nal e biomassa nal,

    medidos em gramas). Dentre as variáveis

    explicativas envolvidas, a mais importante,

    que está diretamente ligada ao objetivo da

    pesquisa é o tipo de tratamento (A versus

    B), uma variável categórica dicotômica.

    Muitas pessoas têm diculdade em

    identicar essa variável explicativa, apesar

    dela ser a mais importante na pesquisa.

    As outras variáveis explicativas são todas

    quantitativas e, como tal, foram obtidas

    por meio de um processo de medição,

    contagem ou dosagem: temperatura (ºC),

    oxigênio Dissolvido (mg L-1), condutividade

    Elétrica (μS cm-1), pH, peso inicial (g) ebiomassa inicial (g).

    Nas tabelas apresentadas aparecem

    métricas (média, desvio padrão e valor de t

    de student ) que são usadas na análise e na

    conclusão do projeto. Fique tranquilo, esses

    conceitos serão tratados nas próximas

    unidades!

    De qualquer forma, a conclusão da pesquisa

    para a pergunta “É possível cultivar tilápias

    em efluente de frigoríco tratado com

    aguapé?”, é: “Sim, é possível cultivar tilápias

    em efluente de frigoríco tratado com

    aguapé. Os dados não mostraram diferençasignicativa entre os dois tratamentos,

    tanto em relação ao desenvolvimento

    quanto à sobrevivência dos peixes”.

    O entendimento completo das razões

    para chegar a essa conclusão será obtido

    nas próximas unidades. Entretanto, neste

    momento, é fundamental que você já

    entenda conceitos referentes ao processo

    de amostragem/coleta de dados e,

    principalmente, que consiga diferenciar

    os tipos e as funções das variáveis numa

    pesquisa.

    REVISÃO

    Vimos nessa unidade alguns dos principais

    tópicos introdutórios do campo da

    Estatística. Em resumo, estudamos sobre:

    População, amostra, censo e amostragem:

    - Censo de toda a população não é viável,

    devido aos altos custos e/ou quando a

    pesquisa envolve ensaios destrutivos.

    - Uma pequena, mas cuidadosamente

    escolhida amostra pode ser usada para

    representar a população.

    - Os resultados observados numa amostra

    representativa poderão ser generalizados,

    sem risco de chegar a uma conclusão

    diferente daquela que seria obtida no caso

    de trabalhar com toda a população.

    - A questão mais importante numaamostragem não é o tamanho da amostra,

  • 8/18/2019 Livro Estatística Probabilidades EAD

    25/173

    ESTATÍSTICA E PROBABILIDADES

    unidade 1

    018

    mas como a amostra será obtida, pois o

    delineamento amostral mal feito invalida

    qualquer pesquisa.

    Tipos de variáveis:

    - Variável qualitativa ou categórica:  é

    aquela que expressa características ou

    atributos de classicação, distribuídos

    em categorias mutuamente exclusivas de

    objetos ou entidades.

    - Variável quantitativa: é aquela obtida

    por meio de um processo de medição ou

    contagem.

    Função das variáveis:

    - Variáveis de identicação e auxiliares:

    servem para o rastreamento dos

    indivíduos e das unidades amostrais

    ou são usadas na denição de outras

    variáveis.

    - Variáveis explicativas:  são aquelas

    que, por hipótese, podem influenciar,

    determinar ou afetar a variável resposta

    ou desfecho da pesquisa.

    - Variável desfecho: é aquela que queremos

    explicar, em função de ser influenciada e/

    ou afetada por outros fatores (variáveis

    explicativas). Também denominada de

    variável dependente ou variável resposta.

    Aconselha-se sempre denir um ou mais

    desfechos para o estudo, conforme os

    objetivos da sua pesquisa.

    Ainda compreendemos que alguns sistemas

    computacionais são ferramentas essenciais

    para coleta de dados de experimentos de

    pequeno e médio porte na área de Ciências

    Exatas e da Engenharia. São eles: o Excel,

    um dos componentes do pacote Ofce da

    Microsoft, e os Formulários do Google Docs

    .

    PARA SABER 

    MAISPara aprofundar sobre as questões discutidas

    nessa unidade, leia o Capítulo 1 do livro texto:

    LEVINE, David M.  et al. Estatística: teoria

    e aplicações usando Microsoft Excel em

    português, 3º edição ou superior: “Introdução e

    Coleta de Dados”, assim como o suplemento docapítulo 1 “Introdução à Utilização do Microsoft

    Excel”.

    https://docs.google.com/formshttps://docs.google.com/forms

  • 8/18/2019 Livro Estatística Probabilidades EAD

    26/173

    UNIDADE

  • 8/18/2019 Livro Estatística Probabilidades EAD

    27/173unidade 2

    020

    ANÁLISE EXPLORATÓRIADE DADOS

    Conforme citado na Unidade 1, se você usar técnicas de análise estatística, você poderá

    rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem,

    como exemplo, que tal se tornar um especialista em reprovação em disciplinas básicas

    de cursos de Engenharia e Tecnologia? E você não precisará “repetir” nenhuma dessas disciplinas

    para ser um especialista em reprovação...! Esse é um problema bem conhecido, mas suas causas

    e fatores associados não! Uma hipótese é que durante o ensino fundamental e médio muitos

    alunos não conseguem adquirir habilidade em resolver problemas matemáticos. Essa deciênciaentão culmina nos cursos de Engenharia com altos índices de reprovação no ciclo básico.

    Disciplinas como Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), Química Geral

    e Algoritmos (AEDS) podem ser verdadeiros “infernos” para alunos da área de Exatas.

    Considerando o problema geral “desempenho acadêmico em disciplinas de ciclo básico de

    cursos de Engenharia”, que tal analisar dados de amostra de alunos, buscando identicar

    as características e possíveis fatores associados aos desfechos “conceito” (aprovado ou

    reprovado), “nota histórico” (0 a 100 pontos) e “abandonou a disciplina?” (sim ou não)?

    Para resolver o problema acima, qual a primeira providência? Muitos podem pensar: “Preciso

    estudar melhor o assunto, fazer uma revisão da literatura sobre o problema. Em seguida,

    preciso planejar e executar a coleta dos dados”. Essa primeira etapa já foi feita e faz parte de

    projeto de iniciação cientíca do Centro Universitário de Belo Horizonte – UniBH, cujo título da

    pesquisa é “Fatores associados ao desempenho acadêmico de alunos em disciplinas do ciclo

    básico de cursos de Engenharia”. A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa(CEP) do UniBH com o nº 920.308, em 17/12/2014 e os dados estão disponíveis para download

  • 8/18/2019 Livro Estatística Probabilidades EAD

    28/173unidade 2

    021

    ESTATÍSTICA E PROBABILIDADES

    no link: https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0.

    Agora que você já tem acesso aos dados, qual o próximo passo para resolvermos o problema

    de reprovação e abandono em Cálculo, GAAL, Química Geral e AEDS? A primeira etapa de

    qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas

    a dados já coletados, é a análise exploratória dos mesmos. Como o próprio nome diz, a

    análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm

    como objetivo fazer uma síntese dos dados, organizando-os sob a forma de tabelas, grácos

    e números. Portanto, para entendermos e resolvermos nosso problema de reprovação,

    precisamos estudar as ferramentas da Estatística Descritiva:

    a) Síntese tabular: Resumo da análise por meio de tabelas;

    b) Síntese numérica: Medidas de posição (média e mediana) e medidas de variabilidade (soma

    dos quadrados dos resíduos, variância, desvio padrão, coeciente de variação);

    c) Síntese gráca: Grácos de pizza, barra, coluna, linha, séries históricas, histograma, gráco

    de Pareto, gráco misto, de coluna e de linha, diagrama de dispersão e box-plot .

    O objetivo desta unidade é promover o conhecimento fundamental que lhe permitirá entender

    dados coletados, transformando dados brutos em informações úteis!

    SÍNTESEGRÁFICA DE DADOS

    Uma gura vale mais que mil palavras! Isso é verdade, entretanto um gráco vale mais que mil

    palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe

    grácos a partir de seus dados, mas tente fazê-los de tal forma que a frase “basta olhar

    para entender” seja válida. Os grácos mais úteis para análise de dados de experimentos de

    pequeno e médio porte na área de Ciências Exatas e Engenharia são: grácos de pizza, barras,

    colunas, linha, séries históricas, histograma, gráco de Pareto, gráco misto, de coluna e de

    linha, diagrama de dispersão e box-plot (tabela 1). De todos esses, somente vejo sentido em

    construi-los “à mão” histogramas e diagramas de dispersão. Entretanto, na prática devemosconstruir grácos usando ferramentas computacionais como o Excel.

    https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0

  • 8/18/2019 Livro Estatística Probabilidades EAD

    29/173unidade 2

    022

    ESTATÍSTICA E PROBABILIDADES

    TABELA 3 - Grácos mais úteis para análise de dados de experimentosde pequeno e médio porte na área de Ciências Exatas e Engenharia.

    Fonte: Elaborado pelo autor.

    Pizza ou setor

    Colunas (verticais)

    Barras (horizontais)

    Histograma

     Grácos de linha

     Séries históricas

     Gráco de Pareto

    Gráco misto, decoluna e linhas

    Diagrama dedispersão

    Box-plot

    Uma

    Uma

    Uma

    Uma

     Duas

     Duas

     Uma

    Duas

     Duas

     Uma ou mais

    Categórica

    Categórica

    Categórica

    Quantitativa, mas categorizada numatabela de distribuição de frequências

    Quantitativa no eixo vertical, ecategórica no eixo horizontal

    Quantitativa no eixo vertical, eo “tempo” no eixo horizontal

    Categórica

    Quantitativa no eixo vertical, eo “tempo” no eixo horizontal

    Variável explicativa quantitativa no eixo horizontal,e desfecho quantitativo no eixo vertical

    Quantitativa

    TIPO DE GRÁFICO NÚMERO DE VARIÁVEISENVOLVIDAS

    TIPO DE VARIÁVEL ANALISADA

    Como fazer os grácos? Siga regras e comentários abaixo e você terá sucesso ao desenhar

    grácos:

      1. Um gráco deve conter um título, entretanto este não deve ser colocado no próprio

    gráco (como o Excel insiste em fazer...). Quando desenhamos um gráco usando o

    Excel, por exemplo, este será exportado para algum documento do Word ou para o

    PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do

    gráco será então colocado no slide ou na descrição da gura no editor de textos,

    sendo desnecessário e errado colocá-lo no meio do próprio gráco. Mesmo em

    casos excepcionais, quando o gráco não é exportado para nenhum outro aplicativo,

    sendo impresso diretamente do Excel, o título não deve ser colocado no meio da

    gura. O título deve ser inserido no cabeçalho da planilha que contém o gráco.

      2. Ao escrever um relatório, comece pelas guras. É impressionante, mas as pessoas leem

    artigos cientícos, relatórios técnicos, jornais e revistas de “fofoca” da mesma forma:começamos pelas guras! Por isso, o título de grácos e tabelas deve ser o mais claro

  • 8/18/2019 Livro Estatística Probabilidades EAD

    30/173unidade 2

    023

    ESTATÍSTICA E PROBABILIDADES

    possível: toda informação necessária para o entendimento da gura deve estar no seu

    título. Essa é uma tendência das revistas cientícas (Nature, Science, por exemplo) e

    tem um efeito colateral: o título da gura ca muito longo. Isso não é exatamente uma

    regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de

    guras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas:

    O que? Quem? Quando? Onde? A interpretação das informações no gráco também

    deve ser colocada como subtítulo da gura. Se necessário, coloque notas explicativas,

    usando siglas somente para coisas realmente conhecidas de quem lerá o seu texto (seu

    chefe ou o chefe do seu chefe...). Veja um exemplo de gráco de pizza na gura abaixo.

    A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizousomente técnicas de Estatística Descritiva na análise dos dados. Praticamente um quartodos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas decontingência, ferramentas que serão discutidas na Unidade 7 deste livro.

    Fonte: BAILAR & MOSTELLER,1992.

    FIGURA 2 – Principais ferramentas estatísticas encontradas em

    artigos publicados no New England Journal of Medicine (NEJM).

      3. Caso o gráco tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para

    entendimento. Os rótulos dos eixos devem conter as respectivas unidades de medida

    envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de erro do Excel! Além de não colocar

    os rótulos nos eixos, o Excel coloca o título no meio da gura e uma legenda que não tem a

    menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais deum grupo de dados na gura. Veja um exemplo correto de gráco de barras na gura abaixo.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    31/173unidade 2

    024

    ESTATÍSTICA E PROBABILIDADES

    FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenhariae Tecnologia do Centro Universitário de Belo Horizonte – UniBH.

    Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399alunos. Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica eÁlgebra Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados.

    Fonte: Elaborado pelo autor.

      4. Não existe regra xa para a escolha da escala do gráco. Qualquer escala é boa

    desde que os valores no gráco não quem muito espalhados nem muito juntos

    numa única região da gura.

      5. Sombreamento, efeitos 3D  e pequenas guras relacionadas com o tipo de dado

    usado no gráco, colocados para dar vida à gura: na maioria das vezes esses

    efeitos são inúteis, podendo até mesmo distorcer o gráco.

      6. A maioria dos grácos apresenta o valor zero como ponto de início dos eixos, mas

    isso não é necessário se o ponto de início da escala é devidamente marcado na

    gura. Na verdade, as pessoas usualmente assumem que o valor zero está na base do

    gráco. Para os grácos de linha isso não é problemático, entretanto, quando se tratar

    de grácos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base

    da coluna. Caso isso não seja feito, ocorre uma distorção do gráco levando a uma

    interpretação errada dos dados. Veja o exemplo abaixo. O primeiro gráco, como nãocomeça no valor zero, está errado, ele “ilude o leitor”: a auditoria foi um sucesso?!

  • 8/18/2019 Livro Estatística Probabilidades EAD

    32/173unidade 2

    025

    ESTATÍSTICA E PROBABILIDADES

    FIGURA 4 – Exemplos de gráco de colunas: o valorzero deve obrigatoriamente ser incluído na gura.

    Fonte: Elaborado pelo autor.

      7. Mais de uma curva ou linha pode ser desenhada em um único gráco com o objetivo

    de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha para

    que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo

    símbolos). Linhas de grade, usualmente colocadas no gráco para auxiliar a leitura das

    escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.

    FIGURA 5- Exemplo de gráco com legenda identicando diferentes dados.

    Fonte: Elaborado pelo autor.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    33/173

  • 8/18/2019 Livro Estatística Probabilidades EAD

    34/173unidade 2

    027

    ESTATÍSTICA E PROBABILIDADES

    FIGURA 8 - Gráco distorcido: desenhandoa gura com a altura muito grande,

    em relação à largura, a informação éfalseada e se tem a sensação de redução

    dos dados ao longo do tempo

    Fonte: Elaborado pelo autor.

      9. Grácos de pizza, “o queridinho”:

    Apesar de muito “engraçadinhos”,

    estes grácos são muitos confusos.

    Evite o seu uso, substituindo por

    grácos de barra ou de colunas.

    É aceitável construi-los somente

    quando são poucos setores bem

    denidos (até cinco pedaços). Evitar

    grácos de pizza em 3D, com vários

    pedaços. Construi-los como na

    gura 2.

    10. Diagrama de dispersão: Ferramenta

    que nos permite avaliar o efeito de

    uma variável explicativa quantitativasobre um desfecho. Serve tanto para

    visualizarmos funções matemáticas

    teóricas (gura 9) quanto funções

    de relacionamentos empíricos já

    conhecidos (gura 10), mas a sua

    grande utilidade é quando tentamos

    estabelecer a associação entre

    duas variáveis quantitativas (gura

    11). A gura 9 é um diagrama de

    dispersão mostrando uma relação

    completamente teórica entre duas

    variáveis (x e y). Como é uma relação

    exata, somente é desenhada a linha

    que liga os pontos do gráco. Na

    gura 10 é desenhada uma relação

    empírica, no caso a lei de Abrams,

    que relaciona a resistência do

    concreto à compressão (R) com o

    fator água/cimento (fx) da seguinte

    forma: R = α/βfx

    . Nessa gura, α eβ foram denidos como 100 e 10

    respectivamente, de tal forma que

    a equação cou R = 100/10fx, fx

    variando de 0 a 3. Já a gura 11

    mostra o uso “nobre” dos diagramas

    de dispersão, quando tentamos

    explorar, criar e propor uma nova

    relação empírica entre duas variáveis

    quantitativas. Nesse exemplo,

    ao invés de aplicarmos a relação

    empírica de Abrams, usamos dados

    reais de fator fx de água/cimento

    e a resistência medida em 28 dias

    de uma amostra de concretos

    (desfecho). Ao inserirmos umalinha de tendência linear, estamos

  • 8/18/2019 Livro Estatística Probabilidades EAD

    35/173unidade 2

    028

    ESTATÍSTICA E PROBABILIDADES

    FIGURA 9 – Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando arelação de x e sua função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama está mostrando

    uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial.

    Fonte: Elaborado pelo autor.

    Fonte: Elaborado pelo autor.

    FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrandoa relação empírica da lei de Abrams que relaciona a resistência à compressão

    de concretos, medida em megapascal (MPa), e o fator água/cimento (fx),determinado pela razão do peso de água pelo peso em cimento do concreto.

    sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão

    do concreto se relaciona com fx por meio de uma equação de reta.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    36/173unidade 2

    029

    ESTATÍSTICA E PROBABILIDADES

    FIGURA 11 – Diagrama de dispersão somente com os marcadores e semlinhas contínuas mostrando uma possível relação linear entre resistência à

    compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).

    Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar aResistência à Compressão do Concreto de Alto Desempenho.  Disponível em: http://www2.ucg.br/nupenge/pdf/Dario.pdf . Acesso em 14 maio 2015.

    A gura 12 mostra possíveis padrões de relacionamento entre uma variável explicativa (X)

    e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de dispersão,

    você deve interpretar o gráco gerado em um dos quatro padrões mostrados na gura 12. A)

    Correlação positiva: Em média, quando X aumenta, Y também aumenta, numa tendência em

    “linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B)

    Correlação negativa: Em média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto

    mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilinear: Em média,

    quando X aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e sim“em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y)

    e a explicativa (X) for uma equação de segundo grau (parábola) ou cúbica, de grau três. D)

    Sem associação: Também é um padrão importante, pois indica que não há relação entre as

    duas variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por

    exemplo, frequentemente se observa que a idade do aluno não está associada à sua nota na

    maioria das disciplinas que ele cursa.

    http://www2.ucg.br/nupenge/pdf/Dario.pdfhttp://www2.ucg.br/nupenge/pdf/Dario.pdfhttp://www2.ucg.br/nupenge/pdf/Dario.pdfhttp://www2.ucg.br/nupenge/pdf/Dario.pdf

  • 8/18/2019 Livro Estatística Probabilidades EAD

    37/173

  • 8/18/2019 Livro Estatística Probabilidades EAD

    38/173unidade 2

    031

    ESTATÍSTICA E PROBABILIDADES

    Fonte: Elaborado pelo autor

    Fonte: Elaborado pelo autor

    Fonte: Elaborado pelo autor

    Exemplo 2 - Histograma fortemente

    assimétrico:  A frequência dos dados

    decresce rapidamente num dos lados emuito lentamente no outro, provocando uma

    assimetria na distribuição dos valores. A

    distribuição dos salários numa empresa é um

    exemplo comum de histograma assimétrico:

    muitas pessoas ganham pouco e poucas

    pessoas ganham muito (a). A situação (b),

    apesar de mais rara, também pode acontecer.

    Exemplo 3 - Histograma tipo despenhadeiro:

    O histograma termina abruptamente em

    um ou nos dois lados, dando a impressão

    de que faltam dados. Na verdade, essa

    possivelmente deve ser a explicação para

    histogramas com esse formato: os dados

    muito pequenos e/ou muito grandes foram

    eliminados da amostra.

    Exemplo 4 - Histograma com dois picos: 

    Ocorrem picos na distribuição e a frequênciaé baixa entre os picos. Possivelmente, os

    dados se referem a uma mistura de valores

    de diferentes populações, devendo ser

    avaliados com cuidado. Se houve mistura

    dos dados, é melhor separá-los.

    Fonte: Elaborado pelo autor.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    39/173unidade 2

    032

    ESTATÍSTICA E PROBABILIDADES

    Exemplo 5 - Histograma tipo platô:  As

    classes de valores centrais apresentam

    aproximadamente a mesma frequência.

    Essa situação também sugere mistura de

    valores de diferentes populações.

    Fonte: Elaborado pelo autor.Fonte: Elaborado pelo autor.

    Fonte: Elaborado pelo autor.

    Exemplo 6 – Histograma com uma pequena

    ilha isolada:  Alguns valores isolados têm

    frequência elevada, formando uma espécie

    de ilha. Também pode ter ocorrido uma

    mistura de dados.

    Exemplo 7 – Histograma tipo serrote:

    As frequências de valores se alternam

    formando vários dentes. Pode indicar algum

    problema na obtenção (leitura) dos dados.

    Vamos usar como exemplo de dados para

    a construção de um histograma notas de

    amostra de alunos em uma prova de Cálculo

    Diferencial (n=120):

  • 8/18/2019 Livro Estatística Probabilidades EAD

    40/173unidade 2

    033

    ESTATÍSTICA E PROBABILIDADES

    FIGURA 13 – Dados brutos de notas de amostra de alunos em prova deCálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.

    Fonte: Elaborado pelo autor.

    0 0 0 1 5 5 6 9 13 17 18 21

    0 0 0 1 5 5 6 10 13 17 18 21

    0 0 0 1 5 5 6 11 14 17 20 22

    0 0 0 2 5 5 9 11 14 17 20 22

    0 0 0 2 5 5 9 12 14 17 20 24

    0 0 0 3 5 5 9 12 14 17 20 24

    0 0 0 3 5 5 9 13 15 17 20 25

    0 0 0 5 5 6 9 13 15 17 20 25

    0 0 0 5 5 6 9 13 17 18 21 25

    0 0 1 5 5 6 9 13 17 18 21 25

    Passo 1 - Determinar valores mínimo, máximo e amplitude (R):

      mín = 0; máx = 25; R = máx – mín = 25 – 0 = 25

    Passo 2 – Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. Onúmero de classes deve ser algo entre 5 a 20 subintervalos. Regra empírica: k  ≈ √n e

    5 ≤ k  ≤ 20 . No exemplo, n ≈ 120; k  ≈ √120 ≈ 10.

    Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ R

     . No exemplo, h ≈R 

    ≈25

    . ≈ 2,5 

    Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10

    classes de tamanho 2,5.

    Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero

    (valor mínimo), teremos uma tabela de distribuição de frequências, base para construção do

    histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos vericar na base de dados quantos

    valores se encaixam em cada classe.

    Observe na figura 14 o símbolo --|, ele indica que o valor à direita faz parte do intervalo,

    mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima

    de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizadossomente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos

    k  k  10

  • 8/18/2019 Livro Estatística Probabilidades EAD

    41/173unidade 2

    034

    ESTATÍSTICA E PROBABILIDADES

    entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode

    ser usado no primeiro subintervalo  e possibilita que incluamos o valor 0,0 na primeira

    classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de

    valores iguais a zero. Eventualmente você poderá se deparar com tabelas construídas

    com o símbolo “invertido”, |--, que indica valores maiores ou iguais ao número colocado à

    esquerda e menores que o valor colocado à direita. Por exemplo, 30 |-- 40 implica valores

    maiores ou iguais a 30 e menores que 40. Usei a notação --| que é o padrão usado pelo

    Excel na construção de histogramas (figura 14).

    Lembre-se de que o total, a soma da coluna “Frequência”, deve ser exatamente o tamanho

    da amostra (n). Além da coluna de frequência absoluta, podemos calcular a frequência

    relativa ou percentual de cada classe (em relação ao total de valores) e a frequência

    acumulada ou percentual acumulado, útil para a construção de gráficos de Pareto (que

    será explicado mais à frente).

    FIGURA 14 – Tabela de distribuição de frequências das notas de amostra de alunos emprova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.

    Fonte: Elaborado pelo autor.

    0,0 |--| 2,5 35 29% 29%

    2,5 --| 5,0 22 18% 48%

    5,0 --| 7,5 6 5% 53%

    7,7 --| 10,0 9 8% 60%

    10,0 --| 12,5 4 3% 63%

    12,5 --| 15,0 12 10% 73%

    15,0 --| 17,5 10 8% 82%

    17,5 --| 20,0 10 8% 90%20,0 --| 22,5 6 5% 95%

    22,5 --| 25,0 6 5% 100%

    Total 120 100%

    U

      NOTA FREQUÊNCIA PERCENTUAL PERCENTUAL ACUMULADO

  • 8/18/2019 Livro Estatística Probabilidades EAD

    42/173unidade 2

    035

    ESTATÍSTICA E PROBABILIDADES

    FIGURA 15 – Histograma com a distribuição das notas na prova de CálculoDiferencial: os dados mostram um padrão de distribuição assimétrico,

    semelhante àquele apresentado no histograma do exemplo 2.

     Fonte: Elaborado pelo autor.

      12. Gráco de Pareto: Esta ferramenta é ótima para ajudar na denição de prioridades,

    quando precisamos fazer um plano de ação para melhoria de qualidade de um

    serviço ou produto. Por exemplo, se um determinado problema ou defeito pode

    ocorrer de diversas formas, como escolher os tipos de defeito prioritários para serem

    corrigidos? A ideia do “efeito Pareto” é que 80% dos problemas estão associados

    a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse é o objetivo do

    gráco de Pareto: vericar quais itens ou problemas ocorrem com maior frequência

    num determinado cenário. Por exemplo, numa amostra de 400 defeitos de fabricação

    de uma peça mecânica, foram observados 16 tipos de defeito: rebarbas, diâmetromenor, diâmetro maior, sem usinagem, altura menor, trincas, altura maior, borda

    muito na, enviesado, base maior que o topo, borda muito grossa, cor muito escura,

    estrutura pouco flexível, base menor que o topo, cor muito clara e estrutura frágil. Ao

    se construir um gráco de Pareto com os dados (gura 16), observa-se que a maioria

    absoluta (66%) dos defeitos se refere somente a três tipos: rebarbas (32%), diâmetro

    menor (21%) e diâmetro maior (13%). Ou seja, ao fazer um plano de ação para corrigir

    possíveis defeitos de fabricação dessa peça, “ignore” 13 defeitos e priorize suas

    ações em apenas esses três. Fazendo isso, 66% do problema estará corrigido!

  • 8/18/2019 Livro Estatística Probabilidades EAD

    43/173unidade 2

    036

    ESTATÍSTICA E PROBABILIDADES

    FIGURA 16 – Gráco de Pareto com a frequência de defeitos de fabricaçãode uma peça mecânica: 66% dos defeitos são somente de três categorias prioritárias

    para um plano de ação para melhorar a qualidade do processo de fabricação(rebarbas, diâmetro menor e diâmetro maior).

    Fonte: Elaborado pelo autor.

      13. Box-plot: Este gráco, também conhecido como diagrama em caixa ou “caixa e

    bigode”, informa sobre a distribuição dos dados. Somente se aplica a variáveis

    quantitativas (gura 17), informando o menor valor (pequena linha horizontal

    inferior) e valor máximo (pequena linha horizontal superior). A distância entre o

    valor mínimo e a aresta inferior da caixa cinza é a amplitude em que ocorrem os

    25% dos valores mais baixos. Este é conhecido como 1º quartil, sendo delimitado

    pelo percentil 25 dos dados. As  duas caixas, cinza e vermelha, mostram onde

    estão 50% dos dados. A distância entre a aresta superior da caixa vermelha e a

    pequena linha horizontal superior, que equivale ao máximo dos dados, refere-se ao

    intervalo em que ocorrem 25% dos maiores valores da variável. A linha separando

    as duas caixas representa a mediana, que expressa o valor do meio se todos os

    dados fossem colocados em ordem. Assim como os histogramas, o box-plot nos

    informa sobre a maneira de distribuição dos dados, tendo a vantagem de permitir

    a visualização de grupos de dados (gura 18). Nessa gura, é apresentado um

    resumo comparativo da taxa de aprovação de oito disciplinas de ciclo básico decursos de Engenharia.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    44/173unidade 2

    037

    ESTATÍSTICA E PROBABILIDADES

    FIGURA 17 – Exemplo de box-plot para uma variável quantitativa genérica: quanto maior otamanho das duas caixas, vermelho e cinza, maior a variabilidade e dispersão dos dados.

    Fonte: Elaborado pelo autor.

    Fonte: Elaborado pelo autor.

    FIGURA 18 – Box-plot com as taxas de aprovação de oito disciplinas de ciclo básico de

    cursos de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têmtaxas de aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina commenor taxa de aprovação e maior variabilidade dos dados.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    45/173unidade 2

    038

    ESTATÍSTICA E PROBABILIDADES

    SÍNTESE TABULARDE DADOS

    Na análise exploratória de dados, em última instância, todos os resultados são apresentados

    ou na forma de guras ou de tabelas. Assim como nos grácos, invista no título da tabela e

    sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando?

    Onde? Sugerimos que a interpretação das informações na tabela também seja colocada no

    próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas

    realmente conhecidas. A tabela 4 é um exemplo de formato de tabelas, apresentando modelo

    para síntese de variáveis categóricas de uma base de dados.

    TABELA 4 – Análise exploratória de variáveis categóricas: a síntese de variáveiscategóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas

    categorias, a frequência de valores em cada categoria e os respectivos percentuais.

    Fonte: Elaborado pelo autor.

    Conceito Aprovado 2287 49%

      Reprovado 2386 51%

    Local do ensino médio Instituição privada 1509 32%

      Instituição pública 3164 68%

    Sexo Feminino 1948 42%

      Masculino 2725 58%

    Turno Manhã 1153 25%

      Noite 3520 75%

    VARIÁVEL CATEGORIA FREQUÊNCIA PERCENTUAL

    SÍNTESE NUMÉRICADE DADOS

    A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas

    categorias, a frequência de valores em cada categoria e os respectivos percentuais, tal como

    apresentado na tabela 3. Já a síntese de variáveis quantitativas é mais ampla e envolveresumir dois aspectos:

  • 8/18/2019 Livro Estatística Probabilidades EAD

    46/173unidade 2

    039

    ESTATÍSTICA E PROBABILIDADES

     1) um valor típico ou característico para a variável;

     2) uma medida do grau de variabilidade ou de dispersão dos dados.

    1. Valor típico ou medida de posição: O objetivo é encontrar o valor característico, aquele

    que melhor represente os dados. Vamos discutir aqui as duas possibilidades mais

    aplicadas a problemas de pequeno e médio porte na área de Ciências Exatas e

    Engenharia: a média (  X   ) e a mediana ( Md  ). A média é obtida pelo resultado da

    soma de todos os valores, dividido pelo total de dados ou tamanho da amostra (n).

    Matematicamente, a média é obtida por:

    Já a mediana, é na verdade uma medida de ordem, indicando o valor “do meio”, aquele que

    “divide os dados em duas metades”:

    Passo 1 – Colocar os dados em ordem crescente.

    Passo 2 – Encontrar o “valor do meio”, isto é:

      se n, o tamanho da amostra, é ímpar, então Md é o valor central;  se n é par, então Md é a média dos dois valores centrais.

    Exemplo A (n=11), dados já ordenados:

    {3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}

    Para a mediana, como são 11 valores (n é ímpar) e a metade de 11 é 5,5, então Md  é o 6º

    valor, ou seja, o “valor do meio” (lembre-se de que os dados já estão ordenados):

     Md = 9

    Exemplo B (n=18), dados já ordenados:

    {17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}

     X  = ∑ X in

    i =1

    n

  • 8/18/2019 Livro Estatística Probabilidades EAD

    47/173unidade 2

    040

    ESTATÍSTICA E PROBABILIDADES

    Para a mediana, como são 18 valores (n

    é par) e a metade de 18 é 9, então Md  é a

    média entre o 9º e o 10º valor, ou seja:

     Md =30

     +

     40

      = 352

    ATENÇÃO

    Não se esqueça, para obter a mediana é

    necessário, antes de tudo, colocar os dados

    em ordem crescente. Não ordenar os dados é a

    principal fonte de erro no cálculo da mediana!

    Algumas pessoas se perguntam: “Quantas

    casas decimais devo apresentar no

    resultado?”. Quanto menos casas decimais

    você conseguir apresentar nos seus

    resultados, melhor para o entendimento

    da informação! Apresente seus resultados

    usando o mesmo número de casas decimais

    que os dados originais ou, no máximo, uma

    casa decimal além do original, como foi

    feito nos cálculos anteriores.

    Outra questão é “Quando escolher entre

    média e mediana para melhor representar

    um conjunto de dados?” ou “Em quesituações resumir uma variável quantitativa

    usando a média e quando a mediana é

    melhor para representar os dados?”. Para

    essa resposta, é preciso seguir uma regra

    prática:

    • Se média e mediana forem

    semelhantes, então usar a média 

    para representar os dados.

    • Se média e mediana forem  muito

    diferentes,  então usar a mediana

    para representar os dados.

    Além de se basear nas regras acima, que

    exigem uma interpretação caso a caso do

    que seja “média e mediana muito diferentes”,

    você poderá construir histogramas e, pelo

    padrão do gráco, escolher uma ou outra

    medida para representar os dados. Nos

    modelos de histograma colocados notópico anterior, os exemplos 1 (simétrico),

    3 (despenhadeiro) e 5 (platô), a média

    é a melhor medida de posição. Já nos

    histogramas dos exemplos 2 (fortemente

    assimétrico) e 6 (ilha isolada), a mediana é

    a melhor medida de posição que caracteriza

    o conjunto de dados.

    2. Medida do grau de variabilidade ou

    de dispersão dos dados: O objetivo

    é quanticar o quanto os dados são

    heterogêneos, são imprevisíveis,

    em suma, quanticar o grau de

    variabilidade de uma variável

    quantitativa.

  • 8/18/2019 Livro Estatística Probabilidades EAD

    48/173unidade 2

    041

    ESTATÍSTICA E PROBABILIDADES

    A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e

    o valor máximo (máx), o que nos leva à sua amplitude (R): R = máx – mín.

    Entretanto, essa é uma forma muito “simplista”, pois envolve somente dois valores da variável,

    o mínimo e o máximo, ignorando todos os outros. Para uma medida mais adequada de

    variabilidade, uma forma é calcular a sua média ( X  ) e, em seguida, calcular quanto os dados

    estão distantes da média, em média! Soa estranho, mas a ideia faz sentido. Por exemplo, seja

    uma amostra de n = 5 pessoas e seus respectivos números de lhos:

    Pessoa A B C D E

    Número de lhos 0 1 1 2 3

    Qual o número médio de lhos?

    Isso mesmo, essas pessoas têm, em média, 1,4 lhos! Você deve estar se perguntado, “como

    assim... um e 0,4 lho? Não existe 0,4 lho!!” Não se preocupe, a média funciona como ummodelo e, como tal, é uma aproximação da realidade. A média é o melhor valor representativo

    para esses dados e, caso seja necessário resumir toda a informação num único valor, ela

    deve ser usada para substituir o verdadeiro número de lhos de cada pessoa. Bom, voltando

    à variabilidade, como calcular o quanto os dados estão distantes da média, em média? Para

    cada indivíduo, devemos subtrair o valor observado pela média, calculando um “resíduo”:

    -1,4 -0,4 -0,4 +0,6 +1,6

    Pessoa A B C D E

    Número de lhos 0 1 1 2 3

    Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =

    O resíduo  mede a distância de cada valor em relação à média dos dados, ou seja, é uma

    medida de quanto os dados estão distantes da média. Para resumir os resíduos num únicovalor, o ideal é então calcular uma média dos resíduos, que refletiria o quanto os dados estão

     X  =  0 + 1 + 1 + 2 + 3

      =7

    = 1,4.5 5

  • 8/18/2019 Livro Estatística Probabilidades EAD

    49/173unidade 2

    042

    ESTATÍSTICA E PROBABILIDADES

    distantes da média, em média! Infelizmente, se zermos essa média, ela sempre dará zero,

    pois os resíduos negativos anulam os positivos, dando uma soma dos resíduos igual a zero.

    Para resolver esse problema, ao invés de simplesmente calcular os resíduos, devemos calcular

    o resíduo elevado ao quadrado:

    -1,4 -0,4 -0,4 +0,6 +1,6

    1,96 0,16 0,16 0,36 2,56

    Pessoa A B C D E

    Número de lhos 0 1 1 2 3

    Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =

    Resíduo elevado (-1,4)2

    = (-0,4)2

    = (-1,4)2

    = (+0,6)2

    = (+1,6)2

    =ao quadrado

    Se somarmos os resíduos elevados ao quadrado teremos a soma dos quadrados dos resíduos 

    ( ∑ (  X i - X  )2 ), uma métrica que aparece em várias outras análises estatísticas. Quanto maior

    a soma dos quadrados dos resíduos, maior a variabilidade dos dados! Para resumir essa

    métrica, calculamos a sua média, que é chamada de variância amostral ( s2 ):

    n

    i =1

    s2 = ∑ ( X i - X  )2ni =1

    n - 1

    Nessas fórmulas, X i representa cada um dos dados individuais,  X  é a média e n  o tamanho da

    amostra ou total de dados. Observe que, no denominador, dividimos a soma dos quadrados

    dos resíduos por (n - 1) e não por ( n ). Isso é feito porque nossos dados foram obtidos por

    meio de amostragem e não por censo. Ou seja, sempre que tivermos  dados amostrais, que é

    a situação mais comum, calcularemos a variância amostral dividindo a soma dos quadradosdos resíduos por (n - 1). Se tivermos acesso à população toda, ou melhor, se zermos um

    censo (o que é muito raro), então poderemos calcular a variância populacional (Ợ2 ), dividindo

    a soma dos quadrados dos resíduos por (n):

    n

    Ợ2

     = ∑ ( X i - X  )2n

    i =1

  • 8/18/2019 Livro Estatística Probabilidades EAD

    50/173unidade 2

    043

    ESTATÍSTICA E PROBABILIDADES

    É importante se lembrar dessa diferença, pois ela aparece nas calculadoras cientícas e no

    Excel, que permite o cálculo tanto de s2 quanto de Ợ2. Na prática (e na dúvida), sempre calcule

    a variância amostral (s2).

    Uma outra métrica de variabilidade é o desvio padrão amostral (s). Ele é a raiz quadrada da

    variância e tem uso mais difundido que sua “mãe” (s2), porque, ao tirarmos a raiz quadrada

    da variância, o resultado tem a mesma unidade de medida que a média e os dados originais.

    Assim, no exemplo anterior, do número de lhos da amostra de n=5 pessoas, a variância

    amostral é:

    O desvio padrão amostral é:

    É muito comum, ao divulgarmos uma síntese de uma variável quantitativa, apresentarmos a

    sua média, seguida do seu desvio padrão no formato (  X  = s  ). Ou seja, no exemplo anterior,

    essas pessoas têm 1,4 = 1,1 lhos.

    Cuidado, isso não signica que os dados variem somente dentro do intervalo  X  = s , de 1,4 –

    1,1 = 0,3 até 1,4 + 1,1 = 2,5 lhos! Essa é apenas uma forma usada para apresentar ambos os

    valores, de média (  X  ) e desvio padrão (s). Na verdade, se os dados tiverem um histograma

    de forma simétrica, aproximadamente 95% dos dados ocorrerão dentro do intervalo denido

    pela média mais ou menos dois desvios padrões ( X  = 2s ), e 99,7% dentro da média mais ou

    menos três desvios padrões (  X  = 3s ). Se não tivermos como avaliar a forma de distribuição

    dos dados, ou seja, se não soubermos o padrão do histograma dos dados, pelo menos 89%

    dos dados cairão no intervalo X = 3s .

    Supondo que você já consiga calcular o desvio padrão ( s ) de um conjunto de dados, comointerpretar o seu resultado? É fato que, quanto maior o desvio padrão, maior a variabilidade

  • 8/18/2019 Livro Estatística Probabilidades EAD

    51/173unidade 2

    044

    ESTATÍSTICA E PROBABILIDADES

    dos dados. Mas, o que é um desvio padrão grande? Essa resposta depende da magnitude da

    média ( X  ), isto é, para sabermos se um desvio padrão é grande ou pequeno, vai depender do

    valor da média. Por exemplo, sejam os resultados das provas de um atleta, resumidos abaixo:

    Tempo para correr 100 metros:  X  = 11,5 e s = 2,1 segundos;

    Salto em altura: X  = 2,2 e s = 0,8 e metros.

    Em qual prova, salto em altura e tempo para 100 m, o atleta é mais heterogêneo, tem os

    resultados com maior variabilidade? Se você responder essa questão comparando os dois

    desvios padrões, estará cometendo dois erros:

    1º Não se pode comparar diferentes unidades de medida (s versus m);

    2º Deve-se considerar a magnitude da média ao se avaliar um desvio padrão.

    Então, como efetivamente obter o grau de variabilidade de uma variável? Isso é feito pelo

    coeciente de variação  (cv ), uma relação percentual entre o desvio padrão e a média:

    cv =s

      x 100 (%).

    Além de ser uma medida adimensional, o que possibilita comparações entre diferentes

    variáveis, o CV pode ser interpretado de forma absoluta:

    x

    QUADRO 2 – Denição e interpretação do grau de variabilidade de um conjunto de dados.

    Fonte: Elaborado pelo autor.

    CV 100% Neste caso, o desvio padrão é maior que a média. Dados comvariabilidade extrema, muito heterogênea. A variável tem umcomportamento caótico, completamente imprevisível.

    CV INTERPRETAÇÃO

  • 8/18/2019 Livro Estatística Probabilidades EAD

    52/173unidade 2

    045

    ESTATÍSTICA E PROBABILIDADES

    No caso do atleta, teremos os seguintes valores de coeciente de variação:

    Tempo para correr 100 metros: cv  =2,1

      x 100 = 19%;

    Salto em altura: cv  =0,8

      x 100 = 36%;

    Podemos dizer então que o atleta tem pouca variabilidade nos seus resultados da corrida de

    100 m e muita variabilidade nos saltos em altura.

    11,5

    2,2

    LEMBREQuando você zer uma análise exploratória de dados, lembre-se de corrigir os grácos produzidos pelo

    Excel. Lembre-se também de colocar os títulos das tabelas e das guras o mais informativo possível.

    E, ao calcular o desvio padrão, não se esqueça de considerar que você tem dados amostrais. Conra

    na sua calculadora e/ou no próprio Excel qual a fórmula que está sendo usada. Resuma os dados por

    meio de grácos, números e tabelas. Esse é o primeiro e fundamental passo para entender os dados e

    o problema investigado.

    A análise exploratória dos dados é o primeiro passo para que você se torne especialista na

    área investigada. Suas ferramentas de análise não produzem conclusões denitivas sobre um

    problema, mas possibilitam que hipóteses sejam construídas de forma consistente.

    APLICAÇÃO PRÁTICA

    O artigo “Avaliação do impacto do Cálculo Zero no desempenho de alunos ingressantes de cursos de

    Engenharia”, apresentado em 2013 por COUTO e cols. no COBENGE - Congresso Brasileiro de Educação

    em Engenharia, teve como objetivo avaliar o impacto do “Cálculo Zero” no desempenho de alunos

    ingressantes em cursos de Engenharia e Ciência da Computação, tanto em termos da nota nal em

    Cálculo Diferencial e Geometria Analítica e Álgebra Linear (GAAL), quanto na chance de aprovação

    nessas disciplinas. As perguntas-chave do trabalho eram: O “Cálculo Zero” afeta de forma signicativao resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL? Vale a pena investir

  • 8/18/2019 Livro Estatística Probabilidades EAD

    53/173

  • 8/18/2019 Livro Estatística Probabilidades EAD

    54/173unidade 2

    047

    ESTATÍSTICA E PROBABILIDADES

    FIGURA 20 – Gráco de dispersão considerando o percentual de faltas/ausênciasàs aulas de Cálculo Diferencial e a nota nal do aluno nessa disciplina: análiseconsiderando somente alunos em que foram registradas pelo menos uma faltaàs aulas durante o semestre. Há uma forte correlação negativa (r= -0,77) entre

    ausências às aulas e a nota nal do aluno: quanto mais faltas às aulas o aluno tiver,

    menor a sua nota nal em Cálculo Diferencial. IET/ UniBH, 1º semestre de 2011.

    Fonte: COUTO et al., 2013.

    Além de grácos, tabelas com a síntese numérica dos dados  coletados no estudo também foram

    apresentadas no artigo. O uso dessas ferramentas estatísticas de análise de dados mostrou de forma

    inequívoca que valia a pena implementar ações como o “Cálculo Zero”, pois o fato de se ofertar essa

    disciplina afetava o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL.

    Esse é um exemplo real de como usar a análise exploratória dos dados e outras técnicas de

    Estatística e Probabilidades para se entender a fundo um problema, resolvendo-o e se tornando um

    especialista na área.

    Referência:

    XLI CONGRESSO BRASILEIRO DE EDUCAÇÃO EM ENGENHARIA, 2013. Avaliação do Impacto do Cálculo Zero noDesempenho de Alunos Ingressantes de Cursos de Engenharia. Paraná: FADEP, 2013. Disponível em: . Acesso em 14 maio 2015.

    http://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdfhttp://www.fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdf

  • 8/18/2019 Livro Estatística Probabilidades EAD

    55/173unidade 2

    048

    ESTATÍSTICA E PROBABILIDADES

    REVISÃO

    Vimos nesta unidade os principais tópicos

    da análise exploratória de dados, também

    denominada de Estatística Descritiva:

    Síntese gráca: Uma gura vale mais que

    mil palavras! Isso é verdade, entretanto

    um gráco vale mais que mil palavras se

    e somente se ele for desenhado de forma

    clara, correta e concisa. Sempre desenhe

    grácos a partir de seus dados, mas tentefazê-los de tal forma que a frase “basta

    olhar para entender” seja válida. Os grácos

    mais úteis para análise de dados de

    experimentos de pequeno e médio porte na

    área de Ciências Exatas e Engenharia são:

    grácos de pizza, barras, colunas, linha,

    séries históricas, histograma, gráco de

    Pareto, gráco misto, de coluna e de linha,

    diagrama de dispersão e box-plot. Na

    prática devemos construir grácos usando

    ferramentas computacionais como o Excel.

    Síntese tabular de dados:  Na análise

    exploratória de dados, em última instância,

    todos os resultados são apresentados ouna forma de guras ou de tabelas. Assim,

    invista no título da tabela e sempre coloque

    respostas claras para pelo menos quatro

    perguntas: O que? Quem? Quando? Onde?

    Também sugiro que a interpretação das

    informações na tabela seja colocada no

    próprio título. Se necessário, coloque notas

    explicativas, usando siglas somente para

    coisas realmente conhecidas.

    Síntese numérica: O resumo de uma

    variável categórica é muito simples, basta

    que você apresente suas categorias, a

    frequência de valores em cada categoria

    e os respectivos percentuais. Já a síntese

    de variáveis quantitativas é mais ampla e

    envolve resumir dois aspectos:

    1) Um valor típico ou característico para a

    variável, que é denido pela média (  X  ) e

    pela mediana (Md). Se média e mediana

    forem semelhantes, então a média deve

    ser usada para representar os dados.

    Entretanto, caso haja discrepância muito

    grande entre média e mediana, então se

    deve usar a mediana para representar os

    dados;

    2) Uma medida do grau de variabilidade ou

    de dispersão dos dados, calculada pelo

    desvio padrão amostral ( ) e o coeciente

    de variação (CV).

    PARA SABER MAIS

    Caso você deseje aprofundar sobre as questões

    discutidas nesta unidade, leia os capítulos 2 e 3

    do livro texto: LEVINE, David M. et al. Estatística:

    teoria e aplicações: usando Microsoft Excel em

    português. 6. ed. Rio de Janeiro: LTC, 2012,

  • 8/18/2019 Livro Estatística Probabilidades EAD

    56/173

  • 8/18/2019 Livro Estatística Probabilidades EAD

    57/173unidade 3

    050

    INTRODUÇÃO ÀTEORIA DE PROBABILIDADES

    Aorigem da teoria das probabilidades é comumente associada à questões colocadas

    por MÉRÉ (1607-1684) a PASCAL (1623-1662). Todavia, existem autores que

    sustentam que o cálculo das probabilidades iniciou-se na Itália, com PACCIOL