Post on 23-Nov-2018
4. Medidas descritiva para dados quantitativos
4.1. Medidas de Posição da amostra: média, mediana e moda
Considere uma amostra com n observações: x1, x2, . . . , xn.
a) Média: (ou média aritmética) é representada por x e é dada
soma das observações, divida pelo número de observações.
n
xx
n
i i 1
Exemplo 1: Sejam os dados: 2, 3, 6, 3, 5, 4, 3, 4, 2, 3,
logo 3510
1
i
ix
5.310
35x
Propriedade:
Se y = ax + b, então, para uma amostra x1, x2, . . . , xn, temos:
nibxay ii ,,2,1, ,
e
bxay
Exemplo 2: Se Y = 2X − 1, então, temos os dados transformados:
3, 5, 11, 5, 9, 7, 5, 7, 3, 5 e 6010
1
i
iy
0.615.32 y
Note que, para duas variáveis x e y, se z = x/y, então:
y
xz
b) Mediana: representada por )(xmed , é dada pela observação
que ocupa a posição central das observações ordenadas.
Definição:
Estatística de ordem: a estatística de ordem i é dada pela i-ésima
observação ordenada, sendo representada por:
x(i), i = 1, 2, . . . , n,
ou seja:
i) x(1) é a primeira estatística de ordem, ou o valor mínimo da
amostra;
ii) x(n) é a n-ésima estatística de ordem ou o valor máximo da
amostra.
iii) x(i) é a i-ésima estatística de ordem, ou a i-ésima observação
ordenada;
Por exemplo, para i = 2, x(2) é a segunda estatística de ordem,
ou o segundo menor valor da amostra;
Desta forma, temos que as estatísticas de ordem fornecem a
amostra ordenada: x(1) x(2) . . . x(n)
Seja a amostra ordenada, x(1) x(2) . . . x(n), então, a posição
central é dada pela estatística de ordem, portanto,
2
1)( nxxmed
Exemplo 3: Sejam os dados: 2, 3, 6, 3, 5, 4, 2, 5, 2 (n = 9).
Dados ordenados: 2, 2, 2, 3, 3, 4, 5, 5, 6
Então, 3)( 5 xxmed
Notas:
i) A mediana também é representada por x~ ;
ii) Se n é par, a mediana é dada pela média aritmética das duas
observações centrais.
Exemplo 4: Sejam agora: 2, 2, 2, 3, 3, 4, 4, 5, 5, 6 (n = 10).
Então, 5.32
43
2)(
)6()5(5.5
xxxxmed
c) Moda: representada por )(xmo , é observação da amostra com
maior frequência, ou seja, a que mais se repete.
Um conjunto de dados pode ter mais de uma moda, ou até
mesmo, não ter moda.
Classificação de um conjunto de dados em relação ao número de
modas:
i) unimodal: quando o conjunto tem uma única moda;
ii) bimodal: quando o conjunto tem duas modas;
iii) multimodal: quando o conjunto tem três ou mais modas;
iv) amodal: quando o conjunto não tem moda (neste caso, todas
as observações aparecem uma única vez na amostra).
Exemplo 5: Com os dados: 2, 3, 6, 3, 5, 4, 3, 4, 2, 3
Então, 3)( xmo (aparece 4 na amostra)
O conjunto é unimodal.
O moda pode, ainda, ser calculada para variáveis categóricas.
Neste caso, o resulta será um valor não numérico. Veja o exemplo:
Considere os conceitos de n = 10 alunos: D B A B C A A C B B
mo(conceito) = B (aparece 4 na amostra)
Exemplo 6: Dos alunos de Estatística 1, dos anos 2015, 2016 e
2017, que praticam alguma atividade física regularmente, seja o
número de vezes que praticam essa atividade física na semana.
Dados:
3 3 3 3 2 3 2 3 3 3
2 2 4 5 4 4 5 7 3 1
2 2 4 4 3 3 3 2 1 3
2 4 3 7 5 5 2
Dados ordenados:
1 1 2 2 2 2 2 2 2 2
2 3 3 3 3 3 3 3 3 3
3 3 3 3 3 4 4 4 4 4
4 5 5 5 5 7 7
i) Média amostral: 12037
1
i
ix ,
Portanto a média amostral é:
24,337
120x vezes/semana
ii) Mediana amostral: como n = 37, então 192
1
n, logo, a
mediana é a observação ordenada que ocupa a 19ª posição, ou seja:
3)( 19 xxmed vezes/semana
iii) Moda da amostra: da tabela de frequências verifica-se que a
observação mais frequente na amostra é o 3, que aparece 14 vezes.
Desta forma, a moda é:
3)( xmo vezes/semana
Podemos resumir as medidas de posição numa tabela:
Tabela: Medidas de posição amostral da variável número de
vezes que pratica atividade física na semana.
média 3,24 vezes/semana
mediana 3 vezes/semana
moda 3 vezes/semana
Exemplo 7: Altura (em metros) de n = 30 alunos de Estatística 1, de
2015 a 2017.
X = altura dos alunos (em metros)
Dados ordenados:
1,54 1,57 1,59 1,59 1,60 1,62 1,63 1,65 1,67 1,68
1,70 1,70 1,70 1,72 1,72 1,73 1,74 1,74 1,75 1,75
1,77 1,78 1,78 1,79 1,80 1,83 1,84 1,90 1,90 1,95
i) Média amostral: 75,5130
1
i
ix .
Portanto a média amostral é: 724,130
73,51x metros
ii) Mediana amostral: como n = 30, então 5,152
1
n, logo, a
mediana é a observação ordenada que ocupa a posição 15,5, ou
seja, é dada pela média aritmética entre a 15ª e 16ª observações
ordenadas:
725,12
73,172,1
2)(
)16()15(5,15
xxxxmed metros
iii) Moda da amostra: a moda é dada pela observação 1,70m, que
aparece 3 vezes na amostra:
70,1)( xmo metros
Comandos do R para as medidas de posição:
altura <- c(1.70, 1.73, 1.83, 1.60, 1.75, 1.84, 1.77,
1.78, 1.74, 1.62, 1.70, 1.67, 1.63, 1.90,
1.54, 1.68, 1.95, 1.90, 1.59, 1.74, 1.80,
1.57, 1.75, 1.72, 1.59, 1.70, 1.65, 1.78,
1.79, 1.72)
# soma das observações
soma <- sum(altura)
soma
# media anostral
xbar <- mean(altura)
xbar
# mediana amostral
mediana <- median(altura)
mediana
A moda não tem uma função pronta no R, portanto, podemos
programar uma função e utilizá-la sempre que for necessário.
# Função no R para a moda
##########################
mo <- function(v){
tabela <- table(as.vector(v))
m <- names(tabela)[tabela == max(tabela)]
if(is.numeric(v)){m <- (as.numeric(m))}
if(length(m)==length(v)){
print("Conjunto não possui moda.")}
else{return(m)}
}
x <- c(1,2,2,2,3,3)
mo(x)
x <- c("e","s","t","a","t","i","s","t","i","c","a")
mo(x)
# moda da variável altura
moda <- mo(altura)
moda
# veja isso!
altura[1] <- 1.69
mo(altura)
# Criando uma lista com estatísticas descritivas
# de posição média, mediana e moda.
################################################
descri <- as.matrix(c(mean(altura),median(altura),mo(altura)))
dimnames(descri)[[1]] <- c("média","mediana","moda")
dimnames(descri)[[2]] <- "altura"
round(descri,4)
4.1.1. Média, Moda e Mediana e a Simetria dos dados
Considere o histograma abaixo:
Figura 4: Função de distribuição de probabilidades sobre o histograma.
O que podemos dizer com relação a simetria da distribuição de
frequências representa por este histograma?
Quando uma distribuição de frequências é perfeitamente
simétrica, teremos que a média aritmética, a moda e a mediana
serão iguais, ou seja:
x = mo(x) = med(x)
E quanto ao exemplo acima (Figura 4), como podemos
classificá-lo em função da sua falta de simetria?
Quando a distribuição não é simétrica, podemos distinguir
duas situações possíveis (Figura 5):
i) A cauda superior da distribuição é mais alongada, puxando a
distribuição para a direita.
Neste caso, a média é maior do que a moda e a assimetria é
dita à direita ou positiva.
ii) A cauda inferior da distribuição é mais alongada, puxando a
distribuição para a esquerda.
Neste caso, a média é menor do que a moda e a assimetria é
dita à esquerda ou negativa.
Figura 5: Assimetrias à direita e à esquerda, respectivamente.
Assim, para cada situação, teremos:
i) Quando a simetria é perfeita as três medidas são iguais.
ii) Na situação em que ocorre a assimetria à direita, teremos a
moda menor do que a mediana que é menor do que a média.
iii) E, para a assimetria à esquerda, devemos ter a média menor do
que a mediana que é menor do que a moda.
Observação importante!
As relações apresentadas são consequência da
simetria (i) ou assimetria (ii) e (iii), não a causa.
Relação entre média, moda e mediana
➢ A Média :
usada para resumir dados contínuos simétricos ou
aproximadamente simétricos;
apropriada quando o tamanho da amostra é moderado ou
grande, mesmo quando a simetria não tão boa;
é influenciada por valores extremos, sendo puxada na direção
da cauda mais alongada (ver Figura 5), especialmente para
amostras pequenas.
➢ A Moda
é o elemento de maior frequência, sendo o ponto de máximo
de f(x);
a moda é apropriada para dados de contagem;
pode ser aplicada a dados qualitativos, nominais ou ordinais;
quando o tamanho da amostra é grande, é robusta a valores
extremos.
➢ A Mediana
está sempre no meio do conjunto, dividindo-o em duas partes
iguais, ficando entre as duas medidas anteriores;
por ser uma medida robusta a valores extremos, é apropriada
para resumir dados assimétricos;
pode ser utilizada para dados qualitativos ordinais.
4.1.2. As médias geométrica e harmônica
a) Média Geométrica: MG(x) e é dada pela n-ésima raiz do
produto das n observações da amostra
nn
nn
ii xxxxxMG
21
/1
1
)(
Exemplo 8: Sejam os dados: 2, 3, 6, 3, 5, 4, 3, 4, 2, 3,
logo 15552010
1
i
ix
305054,3155520)( 10 xMG
Obs:
i) para o cálculo da média geométrica, os valores devem ser todos
positivos e diferentes de zero;
ii) outra forma de apresentação da média geométrica é dada pela
relação:
n
xxxxMG n )log()log()log(
exp)( 21
n
iix
n 1
)log(1
exp
Exemplo 9: Com os dados anteriores, 95453,11)log(10
1
i
ix , e
305054,310
95453,11exp)(
xMG
Propriedades:
i) Seja a amostra x1, x2, . . . , xn, então, )()( xMGaxaMG ;
Exemplo 10: Se y = 2x:
)(2610.6159252480)( 10 xMGyMG
ii) Sejam duas variáveis X e Y, então, )(
)(
yMG
xMG
y
xMG
.
Exemplo 11: Seja a seguinte amostra de uma varável y:
10,0 15,0 10,0 5,0 7,5 5,0 7,5 7,5 12,5 7,5, então
8,262636)( yMG
e, )(
)(4.0
yMG
xMG
y
xMG
b) Média Harmônica: MH(x) e é dada pelo recíproco da média
aritmética dos inversos das observações
n
xxxxMH
n/1/1/1
1)(
21
nxxx
n
111
21
n
i ix
n
1
1
Obs: também, para o cálculo da média harmônica, os valores
devem ser todos positivos e diferentes de zero.
Exemplo 12: Sejam os dados: 2, 3, 6, 3, 5, 4, 3, 4, 2, 3,
logo 2.3110
1
i ix
125.32.3
10)( xMH
Propriedade:
Seja a amostra x1, x2, . . . , xn, então, )()( xMHaxaMH
Exemplo 13: Se y = 2x:
então, 6.1110
1
i iy
)(225.66.1
10)( xMHyMH
4.1.3. Relações entre as medidas deposição
i) Relação de desigualdades entre as médias aritmética, geométrica
e harmônica
xxMGxMH )()(
Se todas as observações forem iguais, ( x1 = x2 = . . . = xn), temos
a igualdade
xxMGxMH )()(
ii) Relação empírica entre média aritmética, mediana e moda.
Karl Pearson, matemático famoso, no final do século XIX e
início do XX, observou empiricamente, a seguinte relação
entre as três medidas de posição média, mediana e moda:
)(3)( xmedxxmox
ou, ainda
xxmedxmo 2)()(
Observações:
1) Se a distribuição dos dados for perfeitamente simétrica, então
)()( xmoxmedx ;
2) A relação só se aplica a distribuições com boa simetria;
3) Só é valida para casos unimodais;
4) Depende de um tamanho de amostra n elevado.
4.1.4. Exemplos de medidas de posição
Exemplo 14: uma grande companhia está preocupada com o tempo
em que seus equipamentos ficam em manutenção na assistência
técnica. Assim sendo, fez um levantamento do tempo de
manutenção (dias) de 50 equipamentos para um estudo mais
detalhado.
X = dias em manutenção de equipamentos.
15 13 21 9 5 5 10 6 2 2
9 10 3 4 2 13 12 16 7 6
4 11 8 6 6 10 17 13 9 5
2 5 9 14 15 3 6 18 3 4
5 7 8 3 10 5 5 4 5 2
Dados Ordenados:
2 2 2 2 2 3 3 3 3 4
4 4 4 5 5 5 5 5 5 5
5 6 6 6 6 6 7 7 8 8
9 9 9 9 10 10 10 10 11 12
13 13 13 14 15 15 16 17 18 21
n = 50 observações
Medidas Descritivas de Posição:
i) Média: 3921 ni ix
84.750
392x dias (≈ 8 dias)
ii) Mediana:
Determinando a posição da mediana
5.252
150
2
1
n
Logo, a mediana é dada pela média entre a 25ª e 26ª
observações ordenadas:
62
66
2)(
)26()25(
xxxmed dias
iii) Moda: mo(x) = 5 dias (aparece 5 na amostra)
o conjunto é unimodal.
iv) Média geométrica: 40
1
10895046.3
n
iix
6.483510895046.3)(50/140 xMG dias
Como 46311.93)log(1
n
iix , temos, ainda,
4835.6e50
46311.93exp)( 1.8693
xMG dias.
v) Média harmônica: 9.48111
1
n
i ix
5.27379.4811
50)( xMH dias
Exemplo 15: Em 1798 o cientista inglês Henry Cavendish mediu a
densidade do globo terrestre em 29 ensaios. Os dados foram
obtidos do Annals os Statistics, 1977.
X = densidade do globo terrestre (g/cm3).
5.50 5.61 4.88 5.07 5.26 5.55 5.36 5.29 5.58 5.65
5.57 5.53 5.62 5.29 5.44 5.34 5.79 5.10 5.27 5.39
5.42 5.47 5.63 5.34 5.46 5.30 5.75 5.68 5.85
Dados ordenados
4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.34
5.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53 5.55 5.57
5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85
n = 29 observações
Medidas Descritivas de Posição:
i) Média: 99.1571 ni ix 448.5
29
99.157x g/cm3
ii) Mediana:
Determinando a posição da mediana
152
30
2
1
n
Logo a mediana é a 15ª observação ordenada.
5.46)( )15( xxmed g/cm3
iii) Moda: mo1(x) = 5.29 g/cm3 e mo2(x) = 5.34 g/cm3
o conjunto é bimodal.
vi) Média geométrica: 21
1
102.19065
n
iix
5.4435102.19065)(29/121 xMG g/cm3
Como 49.13848)log(1
n
iix , temos, ainda,
4435.5e29
49.13848exp)( 1.69443
xMG g/cm3.
vii) Média harmônica: 5.3317681
1
n
i ix
5.43915.331768
29)( xMH g/cm3
Exemplo 16: Altura dos alunos das turmas A e B de Estatística 1 no
primeiro semestre de 2015.
X = altura dos alunos (em metros).
Dados ordenados
1.52 1.55 1.57 1.58 1.59 1.60 1.60 1.60 1.61 1.63
1.63 1.64 1.65 1.65 1.65 1.67 1.68 1.68 1.68 1.69
1.70 1.70 1.70 1.70 1.70 1.72 1.72 1.73 1.73 1.73
1.73 1.74 1.74 1.74 1.75 1.75 1.76 1.77 1.77 1.78
1.78 1.78 1.79 1.79 1.79 1.80 1.80 1.80 1.83 1.83
1.83 1.83 1.89 1.90 1.95
n = 55 observações
Dados:
52.94 ix ;
32.092421
ix
Calcule as medidas de posição: médias aritmética, geométrica e
harmônica; mediana e moda.
Medidas Descritivas de Posição:
i) Média: xi = 94.52 7185.155
52.94x m
ii) Mediana: 282
56
2
1
n, logo a mediana é a 28ª observação
ordenada:
72.1)( )28( xxmed m
iii) Moda: mo(x) = 1.70m aparece 5 na amostra,
o conjunto é unimodal,
4.2. Medidas de Dispersão (ou de variação)
a) Amplitude: é dada pela diferença entre o maior e o menor valor
da amostra.
Sejam ],,,[min 21)1( nx
xxxx e ],,,[max 21)( nx
n xxxx ,
então, a amplitude da amostra é definida por:
)1()( xxA n .
A amplitude A representa o tamanho da região na qual os dados
foram observados.
b) Variância e desvio-padrão amostrais:
A variância amostral é definida pela soma dos quadrados dos
desvios das observações em relação à media amostral x , dividida
por (n – 1), ou seja
1
1
2
2
n
xxs
ni i .
Mostra-se facilmente que s2 pode ser escrita como
1
21
22
n
xnxs
ni i .
O desvio padrão amostral, denotado por s, é definido pela raiz
quadrada da variância amostral e é expresso na mesma unidade dos
dados:
1
1
2
n
xxs
ni i .
c) Amplitude Interquartil: é dada pela diferença entre o 3º e o 1º
quartis e representa a região ocupada pelos 50% das
observações centrais.
Para definir a amplitude interquartil, vamos primeiro definir o
que são quartis amostrais,
Quartis amostrais são medidas descritivas que dividem a
amostra ordenada em quatro parcelas iguais de 25%, ou seja,
25% 25% 25% 25%
------------|------------|------------|------------
Q1 Q2 Q3
med(x)
Assim sendo:
i) Q1 é o primeiro quartil;
ii) Q2 = med(x), é o segundo quartil,
iii) Q3 é o terceiro quartil.
Desta forma, denotada por Aq, é definida por
Aq = Q3 – Q1
Aq determina o tamanho da região em torno da mediana que
contém 50% das observações centrais,
4.2.1. Métodos para a obtenção dos quartis amostrais
Para a obtenção dos quartis devemos proceder da mesma forma
que para a mediana.
Uma vez que a mediana esteja determinada, temos o conjunto
de dados ordenados dividido em duas partes. Os quartis, então, são
dados pelas observações centrais destas duas metades.
Q1 med(x) Q3
Observação central
da metade inferior
Observação central
da metade superior
O procedimento para encontrar os quartis é o mesmo usado
para a mediana, porém, teremos dois procedimentos dependendo
do tamanho da amostra n ser par ou ímpar.
i) Se o tamanho da amostra n for par: o procedimento é o mesmo
da mediana, sendo aplicada a cada uma das metades (inferior e
superior);
Exemplo 17:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9 n = 14
5.52
6 5
2)(
)8()7(
xxxmed
A mediana med(x) = 5.5 divide os dados em dois grupos de 7
observações cada um. Assim,
42
17
Q1 é a 4ª observação da metade inferior e,
Q3 é a 4ª observação da metade superior.
Desta forma, os quartis serão as observações ordenadas que
ocupam as posições 4 e 7 + 4 = 11.
5,5
1 1 2 3 4 5 5 6 6 6 7 8 8 9
3)4(1 xQ
7)11(3 xQ
ii) Se o tamanho da amostra n for ímpar: devemos optar por
incluir, ou não, a mediana nos cálculos para a determinação dos
quartis.
ii.1) se a mediana não for incluída, então teremos dois grupos,
inferior e superior à mediana, cada um com 2)1( n
observações
2
1n
observações
inferiores
2
1n
observações
superiores
Q1 med(x) Q3
e os quartis Q1 e Q3 são obtidos normalmente.
Exemplo 18:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9 n = 13
A mediana 5)( )7( xxmed divide os dados em dois grupos
ordenados de 6 observações cada e, os quartis serão as médias
entre as observações ordenadas )3(x e )4(x e as observações )10(x
e )11(x (7 + 3 = 10).
5.32
16
Q1 é a média da 3ª e 4ª observações do
grupo inferior e,
Q3 é a média da 3ª e 4ª observações do
grupo superior.
5
1 1 2 3 4 5 6 6 6 7 8 9
5.22
3 2
2
)4()3(
1
xx
Q
5.62
7 6
2
)11()10(
3
xx
Q
ii.2) se a mediana for incluída, então, ela deve ser considerada1
tanto para a obtenção do 1º quartil, na metade inferior
como na obtenção do 3º quartil, na metade superior. Desta
forma, teremos 2 grupos, com 2)1( n observações cada.
grupo
inferior
grupo
superior
Q1 med(x) Q3
e os quartis Q1 e Q3 são obtidos normalmente.
Exemplo 19:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 9 n = 13
A mediana 5)( )7( xxmed divide os dados em dois grupos
ordenados de 6 observações cada,
Incluindo a mediana ao procedimento, teremos uma observação
a mais em cada grupo, ou seja, teremos 7 observações
42
17
Q1 é a 4ª observação do grupo inferior e,
Q3 é a 4ª observação do grupo superior, ou
seja, a 10ª observação ordenada (6 + 4),
1 Observe que a mediana é uma só. Ela é apenas considerada nos dois grupos para as contagens das
posições dos quartis.
1 1 2 3 4 5 5
5 6 6 6 7 8 9
3)4(1 xQ
6)10(3 xQ
iii) Outra forma para a obtenção dos quartis é apresentada por
Murteira (2002),
Se a mediana ocupa a posição (n + 1)/2, então Q1 deverá
ocupar a posição:
4
3
2
12
1
n
n
Para a posição de Q3 fazemos:
4
13
4
3)1(
nnn
Portanto, Q1 e Q3 são dados pelas observações ordenadas que
ocupam as posições 4
3n e
4
13 n, respectivamente,
Se os valores de 4
3n e
4
13 n não forem inteiros, Q1 e Q3
devem ser obtidos por interpolação linear,
Por exemplo, se
kn
4
3,
em que k é a parte inteira e a parte decimal, então, Q1 pertence ao
intervalo );( )1()( kk xx e
][ )()1()(1 kkk xxxQ
Para Q3 o procedimento é semelhante, ou seja, se
4
13n,
então, Q3 pertence ao intervalo );( )1()( xx e
][ )()1()(3 xxxQ
Exemplo 20:
Dados: 1 1 2 3 4 5 5 6 6 6 7 8 8 9 n = 14
Para a determinação de Q1, temos:
posição de Q1: 25.44
17
4
314
.
Como = 0,25, Q1 é a interpolação entre a 4ª e 5ª observações
ordenadas:
25.3)34(25.031 Q .
Para a determinação de Q3, temos:
posição de Q3: 75.104
43
4
1143
.
Aqui = 0,75 e Q3 é a interpolação entre a 10ª e 11ª observações
ordenadas:
75.6)67(75.063 Q .
Obs: o item (iii) com n ímpar é equivalente ao item (ii.2),
Notas:
Assim como a mediana, os quartis amostrais dependem do
tamanho da amostra n, fazendo com que nem sempre os quatro
grupos tenham o mesmo tamanho;
Existem diversas outras formas para a determinação dos quartis,
Nesta disciplina daremos ênfase nos itens (i) e (ii.1);
Para n pequeno, pode-se, ainda, obter os quartis graficamente
pelo histograma dos dados;
Os quartis são casos especiais dos quantis (ou percentis), que
são denotados por:
x(p) p-ésimo quantil ou quantil de ordem p,
Portanto, o quantil x(p) é dado pela observação ordenada que
deixa uma frequência acumulada igual 100p % abaixo de si,
Assim sendo temos que:
i) Q1 = x(0.25) quantil de ordem 0.25;
ii) Q2 = med(x) = x(0.50) quantil de ordem 0.50;
iii) Q3 = x(0.75) quantil de ordem 0.75,
4.2.2. Exemplos de medidas de dispersão:
Exemplo 21: Número de pessoas com diabetes em 20 grupos de
1000 pessoas cada. Neste caso, foram obtidos os seguintes dados:
7, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11, 12
1931 ni ix e 18891
2 ni ix
a) Média: 65.920
193x casos (≈ 10);
b) Mediana: 102
1010
2)(
)11()10(
xxxmed casos
c) Moda: mo(x) = 10 casos.
d) Variância e desvio padrão amostral:
19
45.18621889
120
)65.9(201889 22
s
397.119
55.262 s (casos)2
182.1397.1 s casos (≈ 1)
e) Amplitude amostral: 5712 A casos
f) Amplitude interquartil:
posição de Q1: 5.52
110
,
logo, o 1º quartil é dado pela média entre a 5ª e 6ª
observações ordenadas:
92
99
2
)6()5(
1
xx
Q casos.
posição de Q3: 5.155.510 ,
logo o 3º quartil dado pela média entre a 15ª e 16ª
observações ordenadas:
102
1010
2
)16()15(
3
xx
Q casos.
Desta forma, a amplitude interquartil é:
1910 qA caso.
Relação entre as amplitudes amostral e interquartil:
2.05
1
A
Aq
Ou seja, a metade das observações centrais representam 20%
da amplitude total dos dados.
Exemplo 22: Altura dos alunos das turmas A e B de Estatística 1 no
primeiro semestre de 2015.
X = altura dos alunos (em metros).
Dados ordenados
1.52 1.55 1.57 1.58 1.59 1.60 1.60 1.60 1.61 1.63
1.63 1.64 1.65 1.65 1.65 1.67 1.68 1.68 1.68 1.69
1.70 1.70 1.70 1.70 1.70 1.72 1.72 1.73 1.73 1.73
1.73 1.74 1.74 1.74 1.75 1.75 1.76 1.77 1.77 1.78
1.78 1.78 1.79 1.79 1.79 1.80 1.80 1.80 1.83 1.83
1.83 1.83 1.89 1.90 1.95
n = 55 observações
Dado: 52.94 ix e 162.884812
ni ix
a) Média: 7185.155
52.94x m;
b) Mediana: 72.1)( )28( xxmed m;
c) Moda: 70.1)( xmo .
d) Variância e desvio padrão amostral:
54
4369.1628848.162
155
)7185.1(558848.162 22
s
008294.054
4479.02 s m2
09107.0008294.0 s m
e) Amplitude amostral: A 1.95 − 1.52 = 0.43m
f) Amplitude interquartil: (sem incluir a mediana)
O primeiro quartil é a posição central da metade inferior
65.1)14(1 xQ m
O terceiro quartil é a posição central da metade superior
78.1)42(3 xQ m
Desta forma, a amplitude interquartil é:
qA 1.78 − 1.65 = 0.13
Relação entre as amplitudes amostral e interquartil:
302.043.0
13.0
A
Aq
Metade das observações centrais representam 30.2% da amplitude
total dos dados.
Exemplo 23: Dias de manutenção de equipamentos de uma grande
companhia, (n = 50 observações)
X = dias em manutenção de equipamentos,
Dados Ordenados:
2 2 2 2 2 3 3 3 3 4
4 4 4 5 5 5 5 5 5 5
5 6 6 6 6 6 7 7 8 8
9 9 9 9 10 10 10 10 11 12
13 13 13 14 15 15 16 17 18 21
3921 ni ix e 41781
2 ni ix
a) 84.750
392x dias
b) 62
)()26()25(
xxxmed dias
c) mo(x) = 8 dias
d) Variância e desvio padrão amostral:
5453.2249
28.30734178
150
)84.7(504178 22
s dias2
7482.45453.22 s dias
e) Amplitude amostral: 19221 A dias
f) Amplitude interquartil:
A mediana está entre a 25ª e 26ª posição, logo o primeiro
quartil é a posição central da metade inferior dos dados, ou seja:
132
125
, logo o 1º quartil é a 13ª observação ordenada,
4)13(1 xQ dias,
O terceiro quartil é a posição central da metade superior
381325 , logo o 3º quartil é a 38ª observação ordenada,
10)38(3 xQ dias,
Desta forma, a amplitude interquartil é:
5410 qA dias
Relação da amplitude interquartil com a amplitude total:
316.019
6
A
Aq.
Metade das observações centrais representam 31.6% da amplitude
total.
Exemplo 24: Dados Cavendish.
X = densidade do globo terrestre (g/cm3).
Dados ordenados
4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.34
5.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53 5.55 5.57
5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85
n = 29 observações
99.157 ix e 0855.8622 ix
448.529
99.157x g/cm3
a) Variância amostral:
04773.028
36638.1
129
)4479.5(290855.862 22
s (g/cm3)2
Desvio padrão amostral: 21847.004773.0 s g/cm3
b) Amplitude amostral: 97.088.485.5 A g/cm3
c) Amplitude interquartil:
A mediana é 15ª observação ordenada, o primeiro quartil
(excluindo-se a mediana do cálculo) é a posição central da metade
inferior dos dados, ou seja:
295.52
30.529.5
2
)8()7(
1
xx
Q g/cm3,
615.52
62.561.5
2
)23()22(
3
xx
Q g/cm3
Desta forma, a amplitude interquartil é:
qA 5.615 – 5.295 = 0.32 g/cm3,
Relação da amplitude interquartil com a amplitude total:
330.097.0
32.0
A
Aq.
Metade das observações centrais representam 33.0% da amplitude
total.
4.3. O coeficiente de variação amostral:
Uma medida utilizada para quantificar a variabilidade dos
dados é o coeficiente de variação, ou cv.
O cv de variação amostral é dado pela razão do desvio padrão
da amostra s e a média amostral x :
x
scv
Notas:
O coeficiente de variação compara a magnitude do desvio
padrão s com a média x . Se 1cv xs .
O coeficiente de variação é uma medida adimensional (é um
número puro) também podendo ser expresso em %.
Exemplo 25:
a) Número de casos com diabetes em 20 grupos de 1000 pessoas:
65.9x casos/grupo
397.12 s (casos/grupo) 2
182.1397.1 s casos/grupo
122.065.9
182.1cv ou 12.2%
b) Altura dos alunos da disciplina Estatística 1:
x 1.7185m
2s 0.008294m2
09107.0008294.0 s m
0530.07185.1
09107.0cv ou 5.30%
c) Dias de manutenção de equipamentos:
84.7x dias
5453.222 s dias2
7482.45453.22 s dias
606.084.7
7482.4cv ou 60.6%
d) Dados Cavendish:
448.5x g/cm3
21847.0s g/cm3
00401448.5
21847.0cv ou 4.01%,
Nos exemplos acima temos os cv’s de quatro processos
distintos, sendo o maior deles (dias manutenção) 15 vezes maior
do que o menor (Cavendish), indicando claramente as diferenças
na dispersão dos dados.
Tabela: Coeficientes de variação dos exemplos.
Dados cv cv (%)
Manutenção 0.606 60.6%
Diabetes 0.122 12.2%
Alturas 0.053 5.3%
Cavendish 0.040 4.0%
Um ponto de grande interesse, contudo, diz respeito a
classificar o cv e poder dizer se um conjunto de dados tem uma
dispersão muito alta, ou não. A seguir serão apresentados três
critérios para classificação do coeficiente de variação.
4.3.1. Como classificar o Coeficiente de Variação
O cv tem uma característica particular de ser intrínseco a
cada processo, tendo sido muito estudado na área agrícola, mais
especificamente, na experimentação agronômica.
Vários autores indicam diferentes métodos para se classificar o
coeficiente de variação. A seguir, são apresentadas três
classificações.
I) Classificação segundo Pimentel Gomes (1985), baseada em
ensaios agrícolas.
Faixa cv dispersão
menor ou igual a 10% baixo baixa dispersão dos dados
entre 10% e 20% médio média dispersão dos dados
entre 20% e 30% alto alta dispersão dos dados
maior do que 30% muito alto dispersão dos dados muito alta
II) Classificação segundo Ferreira, F.V. (1991), Estatística
Experimental Aplicada à Agronomia, classifica com respeito à
precisão do processo.
Faixa cv precisão
Abaixo de 10% muito baixo ótima
entre 10% e 15% baixo boa
entre 15% e 20% médio regular
entre 20% e 30% alto ruim
maior do que 30% muito alto muito ruim
(ou péssima)
III) Classificação obtida no site www.datalyser.com.br, muito
utilizada em CEP - Controle Estatístico do Processo.
Faixa cv dispersão
menor ou igual a 15% baixo baixa dispersão dos dados
entre 15% e 30% médio média dispersão dos dados
maior do que 30% Alto alta dispersão dos dados
Exemplo 26:
a) Diabetes:
122.065.9
182.1cv (12.2%) cv baixo a médio.
b) Aturas dos alunos:
cv (5.3%) cv baixo.
c) Dias de manutenção de equipamentos:
606.084.7
7482.4cv (60.6%) cv alto ou muito alto.
d) Dados Cavendish:
0401.0448.5
21847.0cv (4.01%) cv baixo.
4.4. O diagrama box-plot
Representação gráfica da dispersão dos dados em torno da
mediana, é construído com as 5 medidas ordenadas: mínimo, Q1,
med(x), Q3 e máximo.
As cinco medidas podem ser apresentadas pela representação dos
cinco números:
med(x)
Q Q1 Q3
E mín(x) max(x)
Observações:
i) A representação dos cinco números, além da construção do
box-plot, ajuda na comparação da assimetria das caudas;
ii) Outros percentis podem ser incluídos, ampliando a
representação.
O diagrama box-plot fornece uma visão simplificada da dispersão
e simetria dos dados, além de indicar possíveis valores fora do
padrão (valores discrepantes). Além disso, pode ser utilizado na
comparação de diferentes processos quanto à centralidade
(posição) e variabilidade (dispersão).
O nome box-plot refere-se à “caixa” construída para representar a
metade das observações centrais entre os quartis.
O box plot é constituído de 3 partes: caixa central, braços e
valores discrepantes.
i) A caixa central representa a metade das observações centrais
entre os quartis Q1 e Q3.
A mediana é destacada na caixa por uma linha que a divide
em duas partes. Com isso, pode-se avaliar a simetria na região
central da distribuição dos dados;
ii) Os braços são construídos a partir da caixa central,
representando as caudas da distribuição.
A construção dos braços é baseada nos valores dos quartis e, o
tamanho dos braços serve para avaliar a simetria das caudas.
iii) Valores discrepantes são valores fora do padrão de dispersão,
aparecendo muito distantes da maioria dos dados, podendo
indicar grande forte assimetria ou variabilidade (ou ambos).
Os valores discrepantes nem sempre estão presentes, sendo
representados individualmente a partir das caudas.
Valores discrepantes Valores discrepantes
Q1 – 1.5AQ Q1 med(x) Q3 Q3 + 1.5AQ
4.4.1. Procedimento para a construção do box-plot
i) Construir a “caixa” ou “box” com os valores de Q1 e Q3;
ii) Com uma linha, demarcar a mediana na caixa, dividindo-a em
duas partes;
iii) Calcular os limites inferior (LI) e superior (Ls):
LI = Q1 – 1.5Aq
LS = Q3 + 1.5Aq
Os limites LI e Ls são utilizados para se identificar valores
discrepantes.
Valores discrepantes são observações menores do que LI ou
maiores do que LS e são destacados individualmente no box-
plot com pontos além desses limites.
iv) Para os “braços” do box-plot, traçar linhas a partir dos centros
das laterais inferior e superior da caixa, obedecendo ao
seguinte critério:
traçar uma linha da lateral inferior da caixa até o menor
valor que não seja discrepante ou até min(x);
marcar os pontos discrepantes menores do que LI, caso
existam;
traçar uma linha da lateral superior da caixa até o maior
valor que não seja discrepante ou até max(x);
marcar os pontos discrepantes maiores do que LS, caso
existam.
Exemplo 27: variável: horas gastas por semana assistindo TV.
0, 2, 2, 2, 2, 3, 4, 5, 5, 5,
5, 5, 5, 5, 6, 7, 7, 8, 8, 8,
10, 10, 10, 10, 10, 10, 10, 10, 10, 10,
10, 12, 12, 12, 12, 14, 14, 14, 14, 14,
15, 16, 18, 20, 20, 20, 25, 25, 28, 30
10
Q 5 14
E 0 30
Figura 2.2: Box-plot’s para a variável horas de TV, nas posições vertical e horizontal.
Comandos do R para o box-plot: x <- c( 0, 2, 2, 2, 2, 3, 4, 5, 5, 5, 5, 5, 5, 5,
6, 7, 7, 8, 8, 8,10,10,10,10,10,10,10,10,
10,10,10,12,12,12,12,14,14,14,14,14,15,16,
18,20,20,20,25,25,28,30)
boxplot(x, col="bisque", main="Horas assistindo
TV", ylab="Horas", pch=19)
Exemplo 28: variável Renda PC por exposição de crianças à
violência doméstica (grupos exposto e não exposto).
Grupo
exposto 68 96 100 100 112 112 117 120 120
135 150 160 160 200 260
não
exposto
36 50 70 84 108 109 120 120 150
150 180 220 250 260 300
Estatísticas descritivas (reais), por grupo.
Grupo n x med(x) s2 s Q1 Q3
Exposto 15 134.00 120.00 2257.29 47.51 100 160
Não exposto 15 147.13 120.00 6376.70 79.85 184 220
35 85 135 185 235 285
0
1
2
3
4
5
6
7
8
Grupo Exposto
Fre
qü
ên
cia
0 66 132 198 264 330
0
1
2
3
4
5
6
Grupo não Exposto
Fre
qü
ên
cia
50 150 250
Box-plot renda per capita
Grupo Exposto
0 100 200 300
Grupo Não Exposto
Box-plot renda per capita
Figura 2.2: Histogramas e box-plot’s individuais
Figura 2.3: box-plot’s por grupo lado-a-lado.
Comandos do R para o box-plot lado-a-lado: exp <- c(68,96,100,100,112,112,117,120,120,135,150,160,
160,200,260)
nexp <- c(36,50,70,84,108,109,120,120,150,150,180,220,
250,260,300)
renda <- c(nexp,exp)
gr <- c(rep("nexp",length(nexp)), rep("exp",length(exp)))
boxplot(renda~gr, pch=19,
col=c("mediumseagreen","lightcoral"))
# para o box-plot horizontal
boxplot(renda~gr, pch=19, horizontal=T,
col=c("mediumseagreen","lightcoral"))