Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras...
Transcript of Descrição e Apresentação de Dados Tabelas: Univariadas Bivariadas Gráficos Colunas Barras...
Descrição e Apresentação de Dados
• Tabelas: Univariadas Bivariadas
• GráficosColunasBarrasSetoresLinhaHistogramasPolígono de frequênciasOgivas
Distribuição de frequências:
Variáveis qualitativas nominais: a distribuição de frequências é, simplesmente,
uma lista das categorias ou valores que uma ou mais variáveis apresentam em
conjunto com a quantidade de ocorrências (número) de cada valor ou categoria.
Esta quantidade é denominada de frequência absoluta (No.). Também, podemos
calcular a frequência percentual de cada categoria (%).
Tabela univariada: resume todos os valores ou categorias de uma variável.
Tabela 1: Alunos segundo sexoSexo No. %Feminino 20 69%Masculino 9 31%
Total 29 100%
Apresentação de Dados Qualitativos
20
9
0 5 10 15 20
Feminino
Masculino
Distribuição de alunos segundo o sexo
Feminino69%
Masculino31%
• Gráficos para variáveis Nominais:
Tabela 1: Alunos segundo sexoSexo No. %Feminino 20 69%Masculino 9 31%
Total 29 100%
Apresentação de Dados Qualitativos
Apresentação de dados qualitativos
Idade Feminino Masculino Total
17|---19 2 0 2
10% 0% 7%
19|---21 11 5 16
55% 56% 55%
21|---23 4 2 6
20% 22% 21%
> =23 3 2 5
15% 22% 17%
TOTAL 20 9 29
100% 100% 100%
Sexo
Tabela bi-variada: resume todos os valores ou categorias de duas variáveis.
Tabela 2: Alunos segundo sexo e idade
Tabela bi-variada: resume todos os valores ou categorias de duas variáveis.
Usa o computador?
Sexo
Feminino Masculino TotalSim 55% 21% 76%Não 14% 10% 24%Total 69% 31% 100%
Apresentação de dados qualitativos
Tabela 3: Distribuição de alunos segundo o usa do computador por sexo
Perspectiva dos Funcionários
0%
5%
10%
15%
20%25%
30%
35%
40%
45%
1 2 3 4 5 6 7 8 9 10Perspectiva inicial Perspectiva f inal
Tabela 4: Perspectiva inicial e atual dos funcionários
Escala
Perspectiva Inicial Perspectiva Final
No. % No. %
1 0 0% 0 0%
2 0 0% 0 0%
3 0 0% 0 0%
4 0 0% 0 0%
5 1 3% 0 0%
6 3 10% 1 3%
7 6 20% 4 13%
8 10 33% 5 17%
9 5 17% 8 27%
10 5 17% 12 40%
Total 30 100% 30 100%
•Variáveis Ordinais
Apresentação de dados qualitativos
Distribuição de frequências - dados agrupados - Geralmente trabalhamos com
conjuntos de centenas ou milhares de observações, onde uma análise razoável
torna-se impraticável. Taxa de desistência de
cartões de crédito
CREDICARD
Ponto médioxi
Freq. Absoluta
Freq. Cumulada Crescente
0,0 ├ 10,0 5 1 1
10,0 ├ 20,0 15 10 11
20,0 ├ 30,0 25 15 26
30,0 ├ 40,0 35 7 33
40,0 ├ 50,0 45 0 33
50,0 ├ 60,0 55 0 33
60,0├ 70,0 65 1 34
Total 34
Nestes casos, podemos
construir distribuições de
frequências, agrupando
resultados em classes pré
estabelecidas. As classes
são pequenos intervalos
mutuamente exclusivos.
Apresentação de dados quantitativos
Distribuição da taxa de desistência de cartões de crédito
0
2
4
6
8
10
12
14
16
0 5 15 25 35 45 55 65
Distribuição da taxa de desistência de cartões de crédito
0
2
4
6
8
10
12
14
16
0 5 15 25 35 45 55 65
Curva da distribuição percentual acumulada da taxa de desistência de cartões de crédito
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 5 15 25 35 45 55
Ogiva
Polígono de Freqüências Histograma de Freqüências
Estatísticas Descritivas
•Medidas de tendência central
• Medidas de dispersão
• Medidas separatrizes
Medidas de tendência central:
• Moda
• Mediana
• Média aritmética
?Xt
Idade Freq. absoluta
18 4 19 8 20 9 21 6 22 3 23 6 25 3 26 1 27 1 30 1 38 2 44 1
Total 45
Maior freqüência
Moda = 20
• A moda é o valor que ocorre mais freqüentemente nos dados.
No exemplo abaixo, observamos que a moda é 20. Esta é a idade mais freqüente no grupo de 45 pessoas.
Muitas vezes a moda pode não ser uma boa medida descritiva, dado que para calcular a moda não são usadas todas as observações;
A moda pode não ser um único valor, isto é, as observações podem apresentar mais de uma moda;
Não podemos combinar modas para calcular uma média modal de duas modas separadas na distribuição;
A moda é uma medida volátil, sensível a pequenas mudanças nas observações;
A moda não é afetada por valores extremos (outliers).
As propriedades da moda podem ser resumidas como segue:
A mediana é o valor médio central após ordenarmos os dados em forma ascendente.
(50%) (50%)
Para calcular a mediana devemos realizar os seguintes passos:
• ordenar as observações em forma ascendente;
• identificar o meio ou centro das observações;
• o valor médio central das observações é a mediana.
Algebricamente, a mediana é o valor que ocupa a posição .
Caso a razão não seja um número inteiro, toma-se como
mediana a média dos dois valores de posições mais próximas a
. 2
)1( n
2
)1( n2
)1( n
Na tabela de distribuição de freqüências do exemplo, observamos que o centro das observações está na posição (45+1)/2 = 23,
Idade Freq. absoluta
Freq. Acumulada
18 4 4 19 8 12 20 9 21 21 6 27 22 3 30 23 6 36 25 3 39 26 1 40 27 1 41 30 1 42 38 2 44 44 1 45
Total 45
Observações nas posições 22, 23, 24, ... 27.
Mediana = 21
É possível determinar graficamente a mediana da distribuição de freqüências, usando a curva da freqüência acumulada (ogiva). Para o exemplo, a curva da distribuição percentual acumulada da distribuição de idades é mostrada na figura abaixo
Como no eixo vertical está marcada
a freqüência percentual,localizamos
o valor 50%. Deste ponto puxamos
uma linha na horizontal até a ogiva,
e uma linha vertical até a interseção
com o eixo dos x’s.Assim, a mediana
corresponde à idade de 20 anos.
A mediana não é volátil como a moda.
A mediana, da mesma forma que a moda, não é particularmente sensível a valores extremos.
A mediana toma sempre um único valor.
A mediana é igual a um valor observado se o número de observações (n) é um número ímpar.
A mediana pode ser determinada graficamente.
As propriedades da mediana podem ser resumidas como segue:
Média aritmética
O conceito da média aritmética, ou simplesmente média, é bastante familiar.
Para calcular a média, soma-se todas as observações e divide-se
pelo número de valores somados. Matematicamente, se as n
observações são representadas como: X1, X2, ... Xn, a média
aritmética pode ser escrita como:
que pode ser representada numa forma mais sucinta
n
XXXX n
21
n
XX
5,2245
1012X
No exemplo 2, a idade média é calculada como:
Idade Xi
Freq. Absoluta fi
Xi fi
18 4 72 19 8 152 20 9 180 21 6 126 22 3 66 23 6 138 25 3 75 26 1 26 27 1 27 30 1 30 38 2 76 44 1 44
Total 45 1012
X1f1 = 18 x 4 = 72
X1f1+ X2f2+ ... + X12f12 = 1012
if Xxi 2
Xxi ii fXx2
Taxa de desistencia de
cartões de crédito
CREDICARD
Ponto médioxi
Freq. Absoluta
(desvio) = (desvio)2 =
0,0 ├ 10,0 5 1 -19,7 388,09 388,09
10,0 ├20,0 15 10 125,3 15700,09 157000,9
20,0 ├30,0 25 15 350,3 122710,1 1840651
30,0 ├40,0 35 7 220,3 48532,09 339724,6
40,0 ├50,0 45 0 -24,7 610,09 0
50,0 ├60,0 55 0 -24,7 610,09 0
60,0├70,0 65 1 40,3 1624,09 1624,09
Total 34 2339389
34
2339389
11
2
2
n
fXxS
n
iii
68805,5588 e S = 262,3081.
Desvio padrão para dados em intervalos de classe
As propriedades da média aritmética podem ser resumidas como
segue:
•· Para calcular a média usa-se todas as observações disponíveis.
•· A média é afetada por valores extremos.
•· A média é uma medida estável a pequenas mudanças das
observações.
•· A média não necessariamente será igual a um dos valores
observados.
•· A média não pode ser determinada graficamente.
Medidas de tendência central
Tipo de variávelNominal Ordinal Quantitativo
sModa sim sim simMediana não sim simMédia não não sim
A escolha das medidas de tendência central
Comparação entre as medidas de tendência central:
Posições relativas da média, mediana e moda
(a) Distribuição simétrica Media
Mediana Moda
Média Moda Mediana (c) Distribuições assimétricas negativas
Moda Média Mediana (b) Distribuições assimétricas positivas
Medidas de Dispersão
• Amplitude total dos dados (AT)
AT = Xmax - Xmin.
Esta medida depende apenas do menor e do maior valor
do conjunto de dados. Em geral não é tão boa quanto as
outras medidas de variação que levam em conta todos os
valores.
• Desvio Médio (DM)
O desvio pela diferença
di = (Xi – média)
mede o quão longe o dado está da média. Entretanto, a soma
desses desvios sempre é igual a zero. Assim, uma medida de
dispersão pode ser definida como o módulo dos desvios:
n
XX
n
dDM
ii
• Variância (2, S2)
• Desvio Padrão (, S)
N
XX i
2
2
)(
Outra medida de dispersão é definida como o desvio quadrático (desvio)2.
2SS
1
)( 2
2
n
XX
Si
2
Para Entender o Desvio-Padrão
• Devemos ter em mente que o desvio padrão mede a variação entre
valores.
• Valores próximos uns dos outros originam desvios-padrão menores,
enquanto valores muito afastados uns dos outros dão um desvio-padrão
maior.
• Uma regra prática que utiliza a amplitude para obter uma estimativa
bastante rudimentar do desvio padrão é:
Uma regra prática: Desvio padrão
4
amplitude
Regra empírica: aplicável somente a conjuntos de dados com distribuição aproximadamente simétrica (forma de sino).
68%
95%
99%
3X2X3X 2X XX X
•Coeficiente de Variação (CV)
N
XX i
2
2
)(
n
XX
Onde:
é a média aritmética e
e a variância.
%100
CV %100
X
SCV
1
)( 2
2
n
XX
Si
Outras Medidas de Posição:
• Quartis: Divide a distribuição em 4 partes iguais. Há três quartis denotados por Q1, Q2 e Q3 ,que dividem os dados ordenados em 4
grupos com 25% das observações em cada grupo;
• Decis: Divide a distribuição em 10 partes iguais. Há nove decis, denotados por D1, D2, ... D9 , que dividem os dados em 10 grupos
com cerca de 10% das observações em cada grupo.
• Percentis: Divide a distribuição em 100 partes iguais. Há 99 percentis, que dividem os dados em 100 grupos com cerca de 1% das observações em cada grupo.
700000600000500000400000300000200000C E E
Diagrama em caixas – Box-Plot
Pontos discrepantes
700000600000500000400000300000200000C E E
Diagrama em caixas – Box-Plot
Valores maiores do que Q3 + 1,5(Q3 - Q1) ou menores do que
Q1 - 1,5(Q3 - Q1) são considerado atípicos.
Atípicos
Atípicos
Q1 Q2 Q3
Q3 + 1,5(Q3 - Q1)
Q1 - 1,5(Q3 - Q1)
Valores maiores do que Q3 + 3(Q3 - Q1) ou menores do que
Q1 - 3(Q3 - Q1) são considerados outliers.
700000600000500000400000300000200000C E E
Q1 Q2 Q3
Q3 + 3(Q3 - Q1)
Q1 - 3(Q3 - Q1)
Outliers Outliers
Medidas de Assimetria
Primeiro Coeficiente de Pearson:
Segundo Coeficiente de Pearson:
S
MXAou
MXA o
so
s
13
213 2
QQQAs
Se As < 0 a distribuição é assimétrica negativa;
As = 0 a distribuição é simétrica;
As > 0 a distribuição é assimétrica positiva.
Medidas de CurtoseCurtose é o grau de achatamento de uma distribuição que pode ser medido utilizando o seguinte coeficiente:
Onde: Q1 e Q3 são os quartis, P90 e P10 são os percentis.
1090
13
2 PP
QQK
K < 0,263 a distribuição de freqüências é leptocúrtica.
Se K > 0,263 a distribuição
de freqüências é platicúrtica;
K = 0,263 a distribuição de
freqüências é mesocúrtica;