Post on 19-Nov-2020
Estatística Descritiva
Tabela
s
Gráficos Números
x , s2,
s, mo,
Q1, Q2, Q3,
...etc.
1
3. Números
3.1. Medidas de posição (ou tendência )
3.2. Medidas de dispersão
Estatística Descritiva
2
3.1. Medidas de posição (ou medidas de tendência central)
a) Moda
b) Média
c) Separatrizes (Mediana, Quartis e percentis)
3
a) 1, 3, 5, 7, 8, 9
b) 1, 3, 5, 5, 5, 8, 8, 9
amodal
unimodalMo=5
Mo= ?
c) 0, 0, 1, 2, 4, 4, 5, 7, 9 bimodalMo= 0 e 4
Logo, um conjunto de dados pode ter
mais do que uma moda.
Valor que apresenta maior freqüência (que ocorre mais vezes) no
conjunto de dados (amostra).
a) Moda (Mo)
4
^
^
^
Exemplo 1
Variedade n. de talhões
CB40-13 12
CB41-76 40
CB46-47 4
IAC48-65 2
IAC51-205 6
IAC52-179 21
NA56-62 10
Total 95
Tabela 1. Variedades de cana-de-açúcar
cultivadas nas fazendas que
abastecem a usina A
Para variáveis qualitativas: é a classe ou categoria de maior frequência.
Mo= Variedade CB41-76
5
^
Exemplo 2
f
Diâmetro (cm)
10
20 30 40 50
20
40
30
Para dados quantitativos: o ponto médio da classe com maior frequência é
chamado de moda bruta.
MoX
106
^
Exemplo 3 = 25 cm^
Moda bruta: Mo
Mo= 10
1 3 5 72 4 6 8 90 10
No caso de dados não agrupados, a moda nem sempre
tem utilidade como elemento representativo do
conjunto de dados.
7
^
Exemplo 4
Dentre as medidas de posição é considerada a mais importante.
b) Média
8
x
Média de uma população:
Média de uma amostra:
b.1) Aritmética simples;
b.2) Ponderada; e
b.3) Dados agrupados
Como calcular a média?
OBS: Pode-se também ter interesse na obtenção da média
associada a alguma outra variável.
Por exemplo, média por curso.
9
PROBLEMA: a média não é uma medida
adequada para a representação deste conjunto!
Suponha que uma empresa possui 5 funcionários. Seus salários mensais são:
R$ 400,00; R$ 545,00; R$ 610,00; R$475,00; R$5500,00.
média salarial: R$ 1506,00
Exemplo 1
b.1) Média Aritmética simples:
Definição: Se x1, ..., xn são os valores (distintos ou não) da variável X, a
média aritmética de X é dada por:
n
x
x
n
i
i 1 Somando-se todos os valores de
um conjunto e dividindo-se esta
soma pelo número de valores.
10
1) Limpar a memória:
2) Mudar para o módulo estatístico (SD):
3) Entrar com os dados
...
4) Pedir a função:
MODE
SHIFT CLR 3
M+número M+número
= =
SHIFT 1
Modelo Cassio fx-82MS
SHIFT 2
Calculadora, como usar?
11
Modelo Cassio fx-83WA
1) Limpar a memória:
2) Mudar para o módulo estatístico (SD):
3) Entrar com os dados
...
4) Pedir a função (ver capa!)
MODE
SHIFT Scl =
M+número M+número
Calculadora, como usar?
Ponto de equilíbrio
ou
Centro de gravidade
Pesos
Trave3210
Interpretação da média
1264,1
14
23
14
123...320x
ovos por folha
Seja X a variável n. de ovos por folha e os seguintes valores observados:
0, 2, 3, 1, 0, 1, 2, 2, 3, 1, 2, 3, 2, 1
Exemplo 2
CUIDADO: A média
aritmética nem sempre
está no centro.
Seja X a variável número de ovos por folha e os seguintes valores observados:
0, 2, 3, 1, 0, 1, 2, 2, 3, 1, 2, 3, 2, 25
3210 7654 111098 1312 17161514 18 212019 2322 2524
Todos os valores, exceto um (25),
estão abaixo da média!
Inconveniente da média:
Ser muito sensível a valores extremos13
Exemplo 3
36,314
2523...320x
ovos por folha
Inconveniente da média:
Pode não ser uma medida de posição indicada quando a
distribuição dos dados é assimétrica, bimodal ou multimodal.
A média é melhor para medidas mais simétricas.14
b.2) Média aritmética ponderada:
15
Um professor resolve passar um
trabalho para ser feito em casa.
Suponha que a prova tenha peso 7,0 e o
trabalho tenha peso 3,0.
Tendo um aluno obtido nota 6,0 na
prova e 9,0 no trabalho, qual será a sua
média nesta disciplina?
9,60,10
0,69
0,30,7
)0,30,9()0,70,6(
px
Exemplo 4
Definição:
A média ponderada dos números x1, ..., xn, com pesos p1, ..., pn,
representada por , é dado por:px
n
i
i
n
i
ii
p
p
xp
x
1
1
N0 de TV´s
(xi)
No de residências
( fi )
xi ∙ fi
0 1 0
1 6 6
2 13 26
3 10 30
Total 30 62
30 residências de um certo bairro foram sorteadas e visitadas por um entrevistador que,
dentre outras questões, perguntou sobre o número de televisores em cada residência.
Interpretação:
Neste bairro cada residência tem
em média 2,1 televisores.
Tabela 2. n. de televisores por residência
16
Exemplo 5
Definição: A média de uma variável quantitativa discretas agrupados em
uma tabela de distribuição de frequências é dada:
k
i
i
k
i
ii
f
fx
x
1
1
sendo k o número de diferentes valores que a variável assume.
17
b.3) Média de dados agrupados em tabelas de distribuição de frequências
Soma dos produtos dos
valores da variável (x)
pelas respectivas
frequências (f) simples,
dividida pela soma das
frequências simples.
Salário
Mínimo
(X)
No de professores
(f)
Ponto médio
(m)m ∙ f
1 |— 3 14 2 28
3 |— 5 25 4 100
5 |— 7 18 6 108
7 |— 9 9 8 72
9 |— 11 4 10 40
Total 70 - 348
Tabela: Salário mínimo de professores do ensino fundamental da rede
privada de uma determinada cidade. Com os dados
agrupados em
classes, perde-se
informação sobre
cada observação
individual
Sempre que
possível devemos
trabalhar com os
dados originais.
Salários mínimos
18
Exemplo 6
Definição:A média de uma variável quantitativa contínua agrupada em classes
apresentada em uma tabela de distribuição de frequências é dada:
k
i
i
k
i
ii
f
fm
x
1
1
sendo k o número de classes e mi o ponto médio da i-ésima classe.
19
Estatística de ordem
Se x1, ..., xn são os valores (distintos ou não) da variável X.
Considere as observações ordenadas.
Denotaremos a menor observação por x(1), a segunda por x(2),
e assim por diante, obtendo-se:
x(1) x(2) ... x(n–1) x(n)
Que são chamadas de estatística de ordem.
20
21
c) Separatrizes
São medidas de posição que permitem calcularmos valores da variável
que dividem ou separam a distribuição em partes iguais. Temos quatro
tipos de separatrizes:
i) a mediana;
ii) os quartis;
iii) os decis;
iii) os percentis.
Definição (dados originais):
Seja n o tamanho da amostra. Se
onde x(i) é a observação que ocupa a i-ésima posição no conjunto de dados
colocados em ordem crescente ou decrescente.
c1) Mediana (MdX)
22
É o valor central de um conjunto de dados ordenados (crescente ou decrescente),
ou seja, é o valor que divide o conjunto em 2 partes iguais:
2
122
2
1
nn
X
nX
xx
Mdparén
xMdímparén
Md
50% são valores
superiores a esse valor
50% dos valores observados
são inferiores a Md
23
Exemplo 1:
Número de estacas de roseira enraizadas
por 5 estacas
Exemplo 2:
Número de estacas de roseira enraizadas
por 5 estacas
X={ 0, 1, 0, 2, 0, 1, 0} Y={ 0, 1, 0, 2, 0, 1, 0, 0}
Dados ordenados: 0, 0, 0, 0, 1, 1, 2 Dados ordenados: 0, 0, 0, 0, 0, 1, 1, 2
MdX = 0 MdY = (0 + 0)/2 = 0
Resumindo:
• Se o número de observações é ímpar: é o valor do meio.
• Se o número de observações é par: é média dos 2 valores centrais.
Calcular a média e a mediana dos conjuntos de dados a seguir:
a) {20, 10, 15, 9, 30, 12, 18, 32}
b) {20, 10, 15, 9, 30, 12, 18, 200}
c) {20, 10, 15, 9, 30, 12, 18}
ma = 18,25^
A mediana é pouco afetada
por valores extremos ou
discrepantes, ou seja, a
mediana é uma medida mais
robusta do que a média
aritmética.
Além disso, representa
melhor dados assimétricos.
24
Tarefa 1
1 ) Repira o Exercício 1
fazendo os cálculos
com a planilha do
Excel.
mb = 39,25^
mda = 16,5^
mc = 16,28571^ m̂dc = 15,0
mdb = 16,5^
Exemplo 1
a<- c(20, 10, 15, 9, 30, 12, 18, 32)
b<- c(20, 10, 15, 9, 30, 12, 18, 200)
c<- c(20, 10, 15, 9, 30, 12, 18)
sort(a); sort(b); sort(c)
mean(a); mean(b); mean(c)
median(a); median(b); median(c)
max(a); max(b); max(c)
min(a); min(b); min(c)
No software R:
Caso só tenhamos acesso aos dados agrupados em uma tabela de distribuição
de frequências em classes e não aos dados originais, podemos calcular a mediana
a partir de uma ogiva. Ou então:
Classe f fa fr (%) fra(%)
40,0 |— 50,0 8 8 16,0 16,0
50,0 |— 60,0 22 30 44,0 60,0
60,0 |— 70,0 8 38 16,0 76,0
70,0 |— 80,0 6 44 12,0 88,0
80,0 |— 90,0 5 49 10,0 98,0
90,0 |— 100,0 1 50 2,0 100,0
Total 50 - 100,0 -
Inicialmente
identifica-se o
retângulo que deve
conter a mediana.
25
0,44
0,160,16
0,12
0 ,10
0,02
%
40 50 60 70 80 90 100
Usando a fra(%) resulta que a
mediana pertence ao intervalo
[50; 60), uma vez que até o valor
60 acumulou-se 60% das
observações.
Com o uso de proporções, estabelece-se a seguinte igualdade:
73,5744,0
5060
34,0
50
X
X MdMd
44%
16%16%
12%
10%
2%
%
40 50 60 70 80 90 100 50 Md 60
44%
34% 10%
Dentro deste intervalo necessita-se de uma área de 34%, que é o que falta
para atingir o valor 50%.
26
Tarefa 2
Os dados a seguir mostram os resultados de 25 medidas de peso em kg
efetuados em pacientes que consultaram em um posto de saúde.
a) Determinar a média, mediana e moda da amostra.
63 73 70 64 77 72 79 76 62 69 73 75 65
71 67 74 75 69 61 71 73 67 72 70 62
27
b) Utilizando os mesmos dados, construa uma tabela de distribuição de
frequências para os dados acima, considerando 6 classes.
c) Em seguida, considere que você não tem mais acesso aos dados originais,
desta maneira, obtenha baseado na tabela de frequências: a média, mediana e
moda. Os valores são iguais? Porque isso ocorre?
28
Dividem um conjunto de dados em quatro partes iguais, isto é, 25% dos
elementos deve estar em cada parte.
c.2) Quartis
em que:
Q1= 1o quartil, deixa 25% dos elementos;
Q2= 2o quartil, deixa 50% dos elementos (coincide com a mediana);
Q3= 3o quartil, deixa 75% dos elementos.
Q1 Q2 Q3
25% 50% 75%
Amostra ordenada
Tabela: Distribuição dos pesos dos pacientes
X f fr fac
61|– 64 4 0,16 0,16
64|– 67 2 0,08 0,24
67|– 70 4 0,16 0,40
70|– 73 6 0,24 0,64
73|– 76 6 0,24 0,88
76 |–| 79 3 0,12 1
Total 25 1
Q1 = 67,19 Q3 = 74,38
Determine o primeiro, segundo e terceiro quartil deste conjunto de dados,
além do P67.
Tarefa 3
Para dados agrupados em Tabelas de frequência
Q2 =? P67 =? 29
Como obter os quartis para dados não
agrupados em tabelas?
“Os métodos usados para calcular os quartis têm pequenas
diferenças”
(VIEIRA, 2012)
Apresentaremos apenas dois deles:30
Os dados:
X = {1, 2, 3, 4, 5, 5, 7, 9, 10}
1) Q2 = ?
1, 2, 3, 4, 5, 5, 7, 9, 10
2) Q1 = ?
1, 2, 3, 4
3) Q3 = ?
5, 7, 9, 10
5
Q2 = 5
Q1 = (2+3)/2 = 2,5
2, 3
Q3 = (7+9)/2 = 8
a.1) Conjunto com número ímpar de dados a.2) Conjunto com número par de dados
Os dados:
X = {1, 2, 2, 5, 5, 7, 8, 10, 11, 11}
1) Q2 = ?
2) Q1 = ?
1, 2, 2, 5, 5
3) Q3 = ?
7, 8, 10, 11, 11
Q2 = (5+7)/2 = 6
Q1 = 2
Q3 = 10
1, 2, 2, 5, 5, 7, 8, 10, 11, 115, 7
2
107, 9
a) Método dos quartis
31
E agora?
Os dados a seguir mostram os resultados de 25 medidas de peso em kg
efetuados em pacientes que consultaram em um posto de saúde.
Como determinar o primeiro, segundo e terceiro quartil deste conjunto
de dados?
63 73 70 64 77 72 79 76 62 69 73 75 65
71 67 74 75 69 61 71 73 67 72 70 62
n=25
61 62 62 63 64 65 67 67 69 69 70 70 71
71 72 72 73 73 73 74 75 75 76 77 79
Ordenando os dados:
Q2 = n(13) = 71 Q1 = ?
Q3 = ?
Para dados não agrupados (dados originais)
32
33
Dividem um conjunto de dados em 10 partes iguais.
c.3) Decis
34
Permitem dividir o conjunto de dados em cem partes iguais, isto é, 1% dos
elementos deve estar em cada parte.
c.4) Percentis
em que:
P1= 1º percentil, deixa 1% dos elementos abaixo dele;
P2= 2º percentil; deixa 2% dos elementos abaixo dele;
...
P25= 25º percentil, deixa 25% dos elementos abaixo dele (coincide com o Q1);
...
P50= 50º percentil, deixa 50% dos elementos abaixo dele(coincide com a Md);
...
P75= 75º percentil, deixa 75% dos elementos abaixo dele (coincide com o Q3);
...
P99= 99º percentil, deixa 99% dos elementos abaixo dele.
2
)1()(
100
npnp
p
xxP
)1](int[100 npp xP
n.p é inteiro:
n.p é não inteiro:
sendo:
x(i) é a observação que ocupa a i-ésima posição no conjunto de dados
colocados em ordem crescente ou decrescente;
0 < p < 1 ;
n o tamanho da amostra; e
int[.] é a função que arredonda um número para o inteiro mais próximo.
Definição: Se
O cálculo do percentil de ordem 100p (P100p) para dados não
agrupados em tabelas é feito baseado na seguinte regra:
35
b) Método do maior inteiro
a) Considere o conjunto de dados da Tabela 1. Obtenha o percentil que separa a produção
das 10% seringueiras mais produtivas das demais, utilize o método do maior inteiro.
10,2 10,2 10,3 10,6 10,8 11,0 11,6 11,8 11,9 12,0
20,3 20,3 21,9 22,0 22,2 22,4 22,8 23,3 23,5 23,8
14,0 14,9 15,2 15,3 15,3 15,4 15,8 16,0 16,2 16,3
24,2 24,5 24,6 24,9 25,1 25,5 26,0 26,3 26,8 28,1
16,9 17,7 18,1 18,3 18,4 18,7 19,6 19,8 19,9 20,0
12,4 12,6 12,6 12,8 12,8 13,0 13,1 13,2 13,4 13,5
Tabela 1. Dados de produção de borracha seca por sangria, por seringueira, em g, na área A
b) Calcule também: Q1, Q2, Q3, P2,5 e P97,5.
Respostas:
a) P90 = 25,0; b) P2,5 = 10,2 ; P97,5 = 26,8 36
Tarefa 4
No software R:
x<- c(10.2, 10.2, 10.3, 10.6, 10.8, 11.0, 11.6, 11.8, 11.9, 12.0,
20.3, 20.3, 21.9, 22.0, 22.2, 22.4, 22.8, 23.3, 23.5, 23.8,
14.0, 14.9, 15.2, 15.3, 15.3, 15.4, 15.8, 16.0, 16.2, 16.3,
24.2, 24.5, 24.6, 24.9, 25.1, 25.5, 26.0, 26.3, 26.8, 28.1,
16.9, 17.7, 18.1, 18.3, 18.4, 18.7, 19.6, 19.8, 19.9, 20.0,
12.4, 12.6, 12.6, 12.8, 12.8, 13.0, 13.1, 13.2, 13.4, 13.5)
sort(x)
Não esqueça
de ordenar
os dados!!!
Assim, para o cálculo da:
Moda: precisamos apenas da distribuição de frequências (contagem);
Mediana: necessitamos minimamente ordenar as realizações da variável;
Média: só pode ser calculada para variáveis quantitativas.
Daqui em diante, por este fato, iremos trabalhar com as
variáveis quantitativas, que permitem o uso de
operações aritméticas com seus valores.
Estas condições limitam bastante o cálculo para variáveis qualitativas:
• Para as nominais somente podemos trabalhar com a moda;
• Para as ordinais, além da moda, podemos usar também a mediana.
37
É possível calcular moda, média e media para TODOS os
tipos de variáveis?
38
Caracterização de uma
distribuição por meio das
medidas de posição(simetria e assimetria)
Quando uma distribuição é
simétrica, as três medidas coincidem
Assimétrica à direitaAssimétrica à esquerda
Quando os valores são diferentes a distribuição é assimétrica
Avaliação de assimetria por média, mediana e moda
freq.
39
Em distribuições
dispersas os valores dos
quartis e extremos ficam
mais afastados da
mediana.
(a) Menor dispersão do que em (b) (b) Maior dispersão do que em (a)
(c) Assimetria à direita (d) Assimetria à esquerda
Em distribuições
assimétricas, a distância
entre a Md e Q1 ou Min
é diferente da distância
entre Md e Q3 ou Max.
40
Avaliação de assimetria por mediana e quartis
Para uma distribuição simétrica ou aproximadamente simétrica,
deveríamos ter:
a) Q2 – x(1) x(n) – Q2 , isto é, a dispersão inferior seja aproximadamente igual a
dispersão superior.
b) Q2 – Q1 Q3 – Q2 ;
c) Q1 – x(1) x(n) – Q3 ;
d) Distâncias entre : Md e Q1 ; e Md e Q3 devem ser menores do que distâncias
entre extremo (x(1)) e Q1 , e extremo (x(n)) e Q3 .
x(1) Q1 Q2 Q3 x(n)
50%
das
obs.
Chamada de distribuição normal ou
gaussiana
OBS: Os três primeiros itens são válidos
para qualquer que seja a distribuição
simétrica. Já o item d) é esperado para
distribuições aproximadamente normais.
41