11.AnaliseExploratoriaI
-
Upload
rennason-carneiro -
Category
Documents
-
view
215 -
download
0
description
Transcript of 11.AnaliseExploratoriaI
-
Probabilidade
Anlise Exploratria de Dados
Introduo
Tabelas Estatsticas
Populao, Amostra e Variveis
Grficos e Distribuio de Frequncias
Renata Souza
-
Conceitos Antigos de Estatstica 1) Simples contagem aritmtica
Exemplos:
Estatstica de asfaltos, mais de 2000 acidentes em seis meses no Estado do Rio de Janeiro.
O Estado do Cear tem 679 indstrias. A populao do Brasil no ano de 2008 de 183.987.291.
2) Sinnimo de dados publicados oficialmente
Publicaes tais como: Anurio Estatstico do Brasil, Revista Brasileira de Estatstica, IBGE, Boletim Estatstico.
-
Conceitos Antigos de Estatstica
3) Simples transformaes numricas (percentagens,
mdias e razes, etc.)
Exemplos:
S 35 em 1000 alunos do curso primrio concluem o Secundrio.
58% dos veculos que rodam no pas so nacionais. Um carro para 16 pessoas sem so Paulo.
-
Conceitos Antigos de Estatstica
4) Construo de tabelas e grficos As informaes contidas na tabela so compreendidas apenas avaliando o contedo da tabela.
Dados especficos so encontrados cruzando visualmente linhas e colunas.
Intenes de votos de candidatos por ms:
Fonte: IBGE
Candidato Janeiro Fevereiro Maro Abril
Joo 3900 5600 3500 2300
Carlos 4500 5900 3100 3000
Jos 2100 4700 4000 3600
-
Tabelas Estatsticas ! As tabelas devem obedecer Resoluo n 886, de 26 de
outubro de 1966, do Conselho Nacional de Estatstica.
Cabealho: Fornece uma breve descrio dos fins a que se destina
Rodap: Fonte dos dados
Corpo: Contm os registros dos dados
-
Tabelas Estatsticas
Perodo Unidades Vendidas Janeiro/2008 20 Fevereiro/2008 10 Total 30
Fonte: ABC Veculos
Vendas no 1 Bimestre de 1996 da ABC Veculos Cabealho
Corpo
Rodap
-
Sries Estatsticas
qualquer tabela que apresenta a distribuio de um
conjunto de dados estatsticos em funo da poca, local
ou espcie. Podem ser:
1. Srie Temporal ou Cronolgica; 2. Srie Geogrfica ou Histrica; 3. Srie Especfica (Categrica); 4. Distribuies de Frequncias.
-
1. Srie Temporal ou Cronolgica
Identifica-se pelo carter varivel do fator cronolgico. O
local e a espcie so elementos fixos.
Ex.: Nvel pluviomtrico por ms em Recife
Perodo Nvel (mm) Janeiro/2008 142 Fevereiro/2008 274 Total Bimestral 416
Fonte: Embrapa
-
2. Srie Geogrfica ou Histrica
Apresenta como fator varivel o fator geogrfico. Tambm
chamada de espacial, territorial ou de localizao.
Perodo Nmero Caracas 1,42 So Paulo 2,50 Recife 2,10
Mdia de habitantes por m2 nas capitais Caracas, So Paulo e Recife em
2008
Fonte: IBGE
-
3. Srie Especfica (Categrica)
O carter varivel apenas o fato ou a espcie.
Time Nmero Sport 37 Nutico 21 Santa Cruz 24 Total 82
Nmero de ttulos pernambucanos conquistados pelos principais
times de Pernambuco
Fonte: FPF
-
4. Distribuies de Freqncias Tabela onde os valores da varivel no aparecem individualmente,
mas agrupados em classes.
Notas Nmero de Alunos 0 |-- 20 2
20 |-- 40 7 40 |-- 60 23 60 |-- 80 16 80 |-- 100 3
Total 51
Notas dos alunos do 2 perodo de Estatstica em
2008
Fonte: SIG@
Intervalo: equivalente a [0;20[
-
Populao e Amostra
! Populao Conjunto de elementos que tm, em comum, determinada
caracterstica. As populaes podem ser finitas ou infinitas. Alm
disso existem populaes que, embora finitas, so consideradas infinitas para qualquer finalidade prtica.
! Amostra Qualquer conjunto de elementos retirado da populao, desde que
esse conjunto seja no vazio e tenha um menor nmero de
elementos que a populao.
-
Esquema
Amostra
Populao
Inferncias Estatsticas:
Estimao de quantidades,
Explorao dos resultados,
Testes de Hipteses
-
Populao e Amostra ! A seleo da amostra pode ser feita e diversas maneiras
dependentes entre outros fatores, do grau de conhecimento que
temos da populao e de recursos disponveis.
! A ideia que amostra tenta fornecer um subconjunto de valores o
mais parecido possvel com a populao que lhe d origem.
! A amostragem mais usada a casual simples, em que
selecionamos ao acaso, com ou sem reposio, os itens da
populao que faro parte da amostra.
-
Exemplo
Uma frao de fumantes preferem a marca de
cigarros Fumac. Aqueles que foram
entrevistados constituem uma amostra
representativa de todos os fumantes (que apesar
de numericamente ser uma populao finita, pode
ser considerada infinita para efeitos prticos) .
-
Exemplos de tipos de Amostragem
1. Amostragem Aleatria: Cada elemento da amostra retirado aleatoriamente de toda a populao (com ou sem reposio). Assim,
cada possvel amostra tem a mesma probabilidade de
ser recolhida.
Ex.: Um professor deseja oferecer prmios (5 livros) aos seus alunos em nmero de 35 e resolve apelar para um
sorteio.
-
Exemplos de tipos de Amostragem
2. Amostragem Estratificada:
Subdividir a populao em pelo menos dois grupos distintos
que partilham alguma caracterstica e, em seguida, recolher
uma amostra de cada um dos grupos (ou estratos).
Ex.: A turma tem 13 alunos e 23 alunas.
A amostra 5/35= 1/7 (1/7) de 13 = 1,86 2 (1/7) de 23 = 3,14 3
-
Exemplos de tipos de Amostragem
3. Amostragem Sistemtica: Quando os elementos da populao se apresentam ordenados e a retirada dos elementos da amostra
feita periodicamente, temos uma amostragem
sistemtica.
Ex.: Sorteia-se um nmero x (0 < x < 50) e faz r = 50/5 = 10 para encontrar qual dos cinco alunos, numerados de 0
a 4, vo apresentar o trabalho.
-
Varivel Caracterstica que pode ser observada (ou mensurada) nos
elementos da populao, devendo ter pelo menos um resultado para
cada elemento observado.
Varivel
Qualitativa Nominal
Ordinal
Quantitativa Discreta
Contnua
-
Varivel
1. Qualitativa: O resultado da varivel um atributo ou uma qualidade.
1.1. Qualitativa Ordinal: representam com uma ordenao natural.
Ex.: Classe social: A- alta, C- mdia, D- baixa
Escolaridade: 1- Primria, 2- Secundria, 3- Superior
1.2. Qualitativa Nominal: no existe ordenao dentre as categorias
Ex.: sexo, cor dos olhos, fumante/no fumante, doente/sadio
-
Varivel
2. Quantitativa: O resultado um nmero numa
escala pr-determinada. 2.1 Discreta: Os resultados possveis so nmeros
inteiros. Ex.: nmeros de alunos.
2.2 Contnua: O resultado est em um intervalo dos
nmeros reais.
Ex.: atraso de transmisso de bytes por uma rede de
internet.
-
Histogramas
! Representao grfica de uma distribuio de frequncias por meio de retngulos justapostos.
! A distribuio de frequncia o mtodo mais til para descrever resultados obtidos com respeito a uma varivel.
Na amostra existem, aproximadamente, 20
elementos com amplitude de rudo igual a 2.
-
Distribuio de Frequncia Tabela onde os valores da varivel no aparecem individualmente, mas agrupados em classes.
Com muitos intervalos corremos o risco de no realar os aspectos relevantes;
Mas com poucos intervalos, os grupos se tornam muito abrangentes, impedindo uma maior preciso;
Importante: definir a amplitude dos intervalos.
-
Polgono de Frequncias um grfico de linha, sendo as frequncias os pontos mdios dos intervalos
das classes.
-
Polgono de Frequncia Acumulada Um ponto no grfico representa a soma de todas as frequncias das
classes anteriores mais a que esse ponto corresponde.
Notas N de Alunos
0 |-- 20 2
20 |-- 40 7
40 |-- 60 23
60 |-- 80 16
80 |-- 100 3
Total 51
-
Grficos Representam os resultados obtidos, permitindo chegar-se a concluses sobre a evoluo de fenmeno ou sobre como se relacionam os valores da srie;
Dependendo do critrio de quem ir fazer o grfico, as sries podem ser representadas por:
1. Grfico de Barras; 2. Grfico de Colunas; 3. Grfico de Setor; 4. Grfico de Hastes.
-
1. Grfico de Barras Representao grfica da distribuio de frequncia para variveis Qualitativas;
As barras so espaadas, possuem a mesma largura e so dispostas horizontalmente.
Motivo de escolher a UFPE para estudar
-
2. Grfico de Colunas
0
50
100
150
200
250
Hospital B Hospital C Hospital A
Escolha de Hospitais como Maternidade
Nmero de recm nascidos
-
Grfico de Colunas Os grficos de coluna so teis para mostrar alteraes de dados
em um perodo de tempo ou para ilustrar comparaes entre itens.
-
3. Grfico de Setor
40%
32%
28%
Nmero de recm nascidos
Hospital B Hospital C Hospital A
O grfico de setores usado para mostrar a importncia relativa das
propores. Ento esse grfico trabalha com porcentagens.
-
4. Grfico de Hastes
20 21 22 23 24 25 26
2
4
6
Mquinas em uso
Freq
unc
ia
Esse tipo de grfico til na representao de variveis de
tempo discreto
-
Construo de tabelas de distribuio de frequncia
Objetivo: construir tabelas de distribuio de
frequncia a partir de dados brutos (n observaes).
1 Passo: determinar a amplitude total;
2 Passo: estimar o nmero de intervalos;
3 Passo: estimar a amplitude dos intervalos;
4 Passo: esquematizar a tabela de acordo com as
informaes dos passos anteriores.
-
Exemplo
Tempo em segundos para carga de um aplicativo
num sistema compartilhado (50 observaes):
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3
5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1
4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 18,1
5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9
-
1 Passo: Determinar a amplitude total (range)
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3
5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1
4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 18,1
5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9
Amplitude total R = 18,1 4,7 = 13,4
Maior tempo
Menor tempo
-
2 Passo: estimar o n de intervalos (classes)
! O nmero de intervalos = , para >25 =5 , para
-
3 Passo: estimar a amplitude dos intervalos
! Amplitude dos intervalos
= / = 13,4/7=1,914=1,92
-
4 Passo: montar a tabela
Tempo Frequncia absoluta
Frequncia relativa
4,70 |-- 6,62 34 68%
6,62 |-- 8,54 12 24%
8,54 |-- 10,46 3 6%
10,46 |-- 12,38 0 0%
12,38 |-- 14,30 0 0%
14,30 |-- 16,22 0 0%
16,22 |-- 18,14 1 2%
Total 50 100%
Valor mnimo
4,70 + h
-
Diagramas de Disperso Serve para saber se existe alguma correlao (forte, fraca, moderada,
positiva, negativa) entre duas variveis.
-
Grficos de Curvas
Usados em processos para se acompanhar a evoluo de
uma varivel em relao a um ou mais limites existentes.
-
Consideraes
! Grficos setoriais so particularmente teis para
visualizar diferenas entre classes. Eles no
acomodam grandes quantidades de categorias.
Nesse caso: reagrupar as menos importantes em um grupo
chamado outros ou,
utilizar um grfico de barras, sendo que estas devem vir separadas;
-
Consideraes Tipo de varivel ou srie Mtodo mais usado ou adequado Comentrio
Dados qualitativos Grfico de barras, colunas ou circulares (tipo torta)
Variveis discretas Medidas intervalares. Grfico de hastes
Variveis contnuas Grficos em forma de
histogramas e polgonos de frequncia
O uso de polgonos de frequncia induz o leitor a aceitar a continuidade da
varivel apresentada.
Sries cronolgicas Grfico de colunas, curvas ou barras
Sries especficas e geogrficas
Grfico de colunas, barra ou setor
O grfico tipo setor permite uma maior visualizao das
partes frente do todo.
-
Exerccio Dada a amostra:
3,2 - 4,1 - 4,9 - 5,0 - 7,3 - 6,7 - 6,6 - 7,4 - 7,1 - 4,0 - 5,5 - 5,4 - 6,5 - 6,5 - 7,1 - 5,2 - 8,3 - 5,7 - 6,8- 6,4
Pede-se: a) Construir a distribuio de frequncia; b) Construir o grfico das frequncias; c) Determinar as frequncias relativas; d) Determinar as frequncias acumuladas; e) Qual a amplitude amostral e de cada classe; f) Qual a porcentagem de elementos maiores que 5; g) Construir o histograma.