11.AnaliseExploratoriaI

42
Probabilidade Análise Exploratória de Dados Introdução Tabelas Estatísticas População, Amostra e Variáveis Gráficos e Distribuição de Frequências Renata Souza

description

Estatística

Transcript of 11.AnaliseExploratoriaI

  • Probabilidade

    Anlise Exploratria de Dados

    Introduo

    Tabelas Estatsticas

    Populao, Amostra e Variveis

    Grficos e Distribuio de Frequncias

    Renata Souza

  • Conceitos Antigos de Estatstica 1) Simples contagem aritmtica

    Exemplos:

    Estatstica de asfaltos, mais de 2000 acidentes em seis meses no Estado do Rio de Janeiro.

    O Estado do Cear tem 679 indstrias. A populao do Brasil no ano de 2008 de 183.987.291.

    2) Sinnimo de dados publicados oficialmente

    Publicaes tais como: Anurio Estatstico do Brasil, Revista Brasileira de Estatstica, IBGE, Boletim Estatstico.

  • Conceitos Antigos de Estatstica

    3) Simples transformaes numricas (percentagens,

    mdias e razes, etc.)

    Exemplos:

    S 35 em 1000 alunos do curso primrio concluem o Secundrio.

    58% dos veculos que rodam no pas so nacionais. Um carro para 16 pessoas sem so Paulo.

  • Conceitos Antigos de Estatstica

    4) Construo de tabelas e grficos As informaes contidas na tabela so compreendidas apenas avaliando o contedo da tabela.

    Dados especficos so encontrados cruzando visualmente linhas e colunas.

    Intenes de votos de candidatos por ms:

    Fonte: IBGE

    Candidato Janeiro Fevereiro Maro Abril

    Joo 3900 5600 3500 2300

    Carlos 4500 5900 3100 3000

    Jos 2100 4700 4000 3600

  • Tabelas Estatsticas ! As tabelas devem obedecer Resoluo n 886, de 26 de

    outubro de 1966, do Conselho Nacional de Estatstica.

    Cabealho: Fornece uma breve descrio dos fins a que se destina

    Rodap: Fonte dos dados

    Corpo: Contm os registros dos dados

  • Tabelas Estatsticas

    Perodo Unidades Vendidas Janeiro/2008 20 Fevereiro/2008 10 Total 30

    Fonte: ABC Veculos

    Vendas no 1 Bimestre de 1996 da ABC Veculos Cabealho

    Corpo

    Rodap

  • Sries Estatsticas

    qualquer tabela que apresenta a distribuio de um

    conjunto de dados estatsticos em funo da poca, local

    ou espcie. Podem ser:

    1. Srie Temporal ou Cronolgica; 2. Srie Geogrfica ou Histrica; 3. Srie Especfica (Categrica); 4. Distribuies de Frequncias.

  • 1. Srie Temporal ou Cronolgica

    Identifica-se pelo carter varivel do fator cronolgico. O

    local e a espcie so elementos fixos.

    Ex.: Nvel pluviomtrico por ms em Recife

    Perodo Nvel (mm) Janeiro/2008 142 Fevereiro/2008 274 Total Bimestral 416

    Fonte: Embrapa

  • 2. Srie Geogrfica ou Histrica

    Apresenta como fator varivel o fator geogrfico. Tambm

    chamada de espacial, territorial ou de localizao.

    Perodo Nmero Caracas 1,42 So Paulo 2,50 Recife 2,10

    Mdia de habitantes por m2 nas capitais Caracas, So Paulo e Recife em

    2008

    Fonte: IBGE

  • 3. Srie Especfica (Categrica)

    O carter varivel apenas o fato ou a espcie.

    Time Nmero Sport 37 Nutico 21 Santa Cruz 24 Total 82

    Nmero de ttulos pernambucanos conquistados pelos principais

    times de Pernambuco

    Fonte: FPF

  • 4. Distribuies de Freqncias Tabela onde os valores da varivel no aparecem individualmente,

    mas agrupados em classes.

    Notas Nmero de Alunos 0 |-- 20 2

    20 |-- 40 7 40 |-- 60 23 60 |-- 80 16 80 |-- 100 3

    Total 51

    Notas dos alunos do 2 perodo de Estatstica em

    2008

    Fonte: SIG@

    Intervalo: equivalente a [0;20[

  • Populao e Amostra

    ! Populao Conjunto de elementos que tm, em comum, determinada

    caracterstica. As populaes podem ser finitas ou infinitas. Alm

    disso existem populaes que, embora finitas, so consideradas infinitas para qualquer finalidade prtica.

    ! Amostra Qualquer conjunto de elementos retirado da populao, desde que

    esse conjunto seja no vazio e tenha um menor nmero de

    elementos que a populao.

  • Esquema

    Amostra

    Populao

    Inferncias Estatsticas:

    Estimao de quantidades,

    Explorao dos resultados,

    Testes de Hipteses

  • Populao e Amostra ! A seleo da amostra pode ser feita e diversas maneiras

    dependentes entre outros fatores, do grau de conhecimento que

    temos da populao e de recursos disponveis.

    ! A ideia que amostra tenta fornecer um subconjunto de valores o

    mais parecido possvel com a populao que lhe d origem.

    ! A amostragem mais usada a casual simples, em que

    selecionamos ao acaso, com ou sem reposio, os itens da

    populao que faro parte da amostra.

  • Exemplo

    Uma frao de fumantes preferem a marca de

    cigarros Fumac. Aqueles que foram

    entrevistados constituem uma amostra

    representativa de todos os fumantes (que apesar

    de numericamente ser uma populao finita, pode

    ser considerada infinita para efeitos prticos) .

  • Exemplos de tipos de Amostragem

    1. Amostragem Aleatria: Cada elemento da amostra retirado aleatoriamente de toda a populao (com ou sem reposio). Assim,

    cada possvel amostra tem a mesma probabilidade de

    ser recolhida.

    Ex.: Um professor deseja oferecer prmios (5 livros) aos seus alunos em nmero de 35 e resolve apelar para um

    sorteio.

  • Exemplos de tipos de Amostragem

    2. Amostragem Estratificada:

    Subdividir a populao em pelo menos dois grupos distintos

    que partilham alguma caracterstica e, em seguida, recolher

    uma amostra de cada um dos grupos (ou estratos).

    Ex.: A turma tem 13 alunos e 23 alunas.

    A amostra 5/35= 1/7 (1/7) de 13 = 1,86 2 (1/7) de 23 = 3,14 3

  • Exemplos de tipos de Amostragem

    3. Amostragem Sistemtica: Quando os elementos da populao se apresentam ordenados e a retirada dos elementos da amostra

    feita periodicamente, temos uma amostragem

    sistemtica.

    Ex.: Sorteia-se um nmero x (0 < x < 50) e faz r = 50/5 = 10 para encontrar qual dos cinco alunos, numerados de 0

    a 4, vo apresentar o trabalho.

  • Varivel Caracterstica que pode ser observada (ou mensurada) nos

    elementos da populao, devendo ter pelo menos um resultado para

    cada elemento observado.

    Varivel

    Qualitativa Nominal

    Ordinal

    Quantitativa Discreta

    Contnua

  • Varivel

    1. Qualitativa: O resultado da varivel um atributo ou uma qualidade.

    1.1. Qualitativa Ordinal: representam com uma ordenao natural.

    Ex.: Classe social: A- alta, C- mdia, D- baixa

    Escolaridade: 1- Primria, 2- Secundria, 3- Superior

    1.2. Qualitativa Nominal: no existe ordenao dentre as categorias

    Ex.: sexo, cor dos olhos, fumante/no fumante, doente/sadio

  • Varivel

    2. Quantitativa: O resultado um nmero numa

    escala pr-determinada. 2.1 Discreta: Os resultados possveis so nmeros

    inteiros. Ex.: nmeros de alunos.

    2.2 Contnua: O resultado est em um intervalo dos

    nmeros reais.

    Ex.: atraso de transmisso de bytes por uma rede de

    internet.

  • Histogramas

    ! Representao grfica de uma distribuio de frequncias por meio de retngulos justapostos.

    ! A distribuio de frequncia o mtodo mais til para descrever resultados obtidos com respeito a uma varivel.

    Na amostra existem, aproximadamente, 20

    elementos com amplitude de rudo igual a 2.

  • Distribuio de Frequncia Tabela onde os valores da varivel no aparecem individualmente, mas agrupados em classes.

    Com muitos intervalos corremos o risco de no realar os aspectos relevantes;

    Mas com poucos intervalos, os grupos se tornam muito abrangentes, impedindo uma maior preciso;

    Importante: definir a amplitude dos intervalos.

  • Polgono de Frequncias um grfico de linha, sendo as frequncias os pontos mdios dos intervalos

    das classes.

  • Polgono de Frequncia Acumulada Um ponto no grfico representa a soma de todas as frequncias das

    classes anteriores mais a que esse ponto corresponde.

    Notas N de Alunos

    0 |-- 20 2

    20 |-- 40 7

    40 |-- 60 23

    60 |-- 80 16

    80 |-- 100 3

    Total 51

  • Grficos Representam os resultados obtidos, permitindo chegar-se a concluses sobre a evoluo de fenmeno ou sobre como se relacionam os valores da srie;

    Dependendo do critrio de quem ir fazer o grfico, as sries podem ser representadas por:

    1. Grfico de Barras; 2. Grfico de Colunas; 3. Grfico de Setor; 4. Grfico de Hastes.

  • 1. Grfico de Barras Representao grfica da distribuio de frequncia para variveis Qualitativas;

    As barras so espaadas, possuem a mesma largura e so dispostas horizontalmente.

    Motivo de escolher a UFPE para estudar

  • 2. Grfico de Colunas

    0

    50

    100

    150

    200

    250

    Hospital B Hospital C Hospital A

    Escolha de Hospitais como Maternidade

    Nmero de recm nascidos

  • Grfico de Colunas Os grficos de coluna so teis para mostrar alteraes de dados

    em um perodo de tempo ou para ilustrar comparaes entre itens.

  • 3. Grfico de Setor

    40%

    32%

    28%

    Nmero de recm nascidos

    Hospital B Hospital C Hospital A

    O grfico de setores usado para mostrar a importncia relativa das

    propores. Ento esse grfico trabalha com porcentagens.

  • 4. Grfico de Hastes

    20 21 22 23 24 25 26

    2

    4

    6

    Mquinas em uso

    Freq

    unc

    ia

    Esse tipo de grfico til na representao de variveis de

    tempo discreto

  • Construo de tabelas de distribuio de frequncia

    Objetivo: construir tabelas de distribuio de

    frequncia a partir de dados brutos (n observaes).

    1 Passo: determinar a amplitude total;

    2 Passo: estimar o nmero de intervalos;

    3 Passo: estimar a amplitude dos intervalos;

    4 Passo: esquematizar a tabela de acordo com as

    informaes dos passos anteriores.

  • Exemplo

    Tempo em segundos para carga de um aplicativo

    num sistema compartilhado (50 observaes):

    5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3

    5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1

    4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 18,1

    5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9

  • 1 Passo: Determinar a amplitude total (range)

    5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3

    5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1

    4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 18,1

    5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9

    Amplitude total R = 18,1 4,7 = 13,4

    Maior tempo

    Menor tempo

  • 2 Passo: estimar o n de intervalos (classes)

    ! O nmero de intervalos = , para >25 =5 , para

  • 3 Passo: estimar a amplitude dos intervalos

    ! Amplitude dos intervalos

    = / = 13,4/7=1,914=1,92

  • 4 Passo: montar a tabela

    Tempo Frequncia absoluta

    Frequncia relativa

    4,70 |-- 6,62 34 68%

    6,62 |-- 8,54 12 24%

    8,54 |-- 10,46 3 6%

    10,46 |-- 12,38 0 0%

    12,38 |-- 14,30 0 0%

    14,30 |-- 16,22 0 0%

    16,22 |-- 18,14 1 2%

    Total 50 100%

    Valor mnimo

    4,70 + h

  • Diagramas de Disperso Serve para saber se existe alguma correlao (forte, fraca, moderada,

    positiva, negativa) entre duas variveis.

  • Grficos de Curvas

    Usados em processos para se acompanhar a evoluo de

    uma varivel em relao a um ou mais limites existentes.

  • Consideraes

    ! Grficos setoriais so particularmente teis para

    visualizar diferenas entre classes. Eles no

    acomodam grandes quantidades de categorias.

    Nesse caso: reagrupar as menos importantes em um grupo

    chamado outros ou,

    utilizar um grfico de barras, sendo que estas devem vir separadas;

  • Consideraes Tipo de varivel ou srie Mtodo mais usado ou adequado Comentrio

    Dados qualitativos Grfico de barras, colunas ou circulares (tipo torta)

    Variveis discretas Medidas intervalares. Grfico de hastes

    Variveis contnuas Grficos em forma de

    histogramas e polgonos de frequncia

    O uso de polgonos de frequncia induz o leitor a aceitar a continuidade da

    varivel apresentada.

    Sries cronolgicas Grfico de colunas, curvas ou barras

    Sries especficas e geogrficas

    Grfico de colunas, barra ou setor

    O grfico tipo setor permite uma maior visualizao das

    partes frente do todo.

  • Exerccio Dada a amostra:

    3,2 - 4,1 - 4,9 - 5,0 - 7,3 - 6,7 - 6,6 - 7,4 - 7,1 - 4,0 - 5,5 - 5,4 - 6,5 - 6,5 - 7,1 - 5,2 - 8,3 - 5,7 - 6,8- 6,4

    Pede-se: a) Construir a distribuio de frequncia; b) Construir o grfico das frequncias; c) Determinar as frequncias relativas; d) Determinar as frequncias acumuladas; e) Qual a amplitude amostral e de cada classe; f) Qual a porcentagem de elementos maiores que 5; g) Construir o histograma.