Estat descritiva-FREQ
-
Upload
tiago-caetano -
Category
Documents
-
view
948 -
download
0
description
Transcript of Estat descritiva-FREQ
Á r e a D e p a r t a m e n t a l d e M a t e m á t i c a
E s t a t í s t i c a
D e s c r i t i v a
Carla Maria Lopes da Silva Afonso dos Santos
2006/2007
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 2
1. Introdução
A Estatística descritiva consiste na recolha, apresentação, análise e interpretação de dados através da criação de instrumentos adequados.
Uma das primeiras fases da planificação de um estudo estatístico consiste na
definição exacta de quais os indivíduos (pessoas, animais ou objectos) que interessa estudar. O conjunto de indivíduos ou objectos que apresentam uma ou mais características em comum e sobre os quais recai o estudo designa-se por População (ou Universo), podendo esta população ser finita ou infinita.
Cada um dos elementos da população sobre os quais recai o estudo designa-se por unidade estatística.
Ao realizar um estudo estatístico, muitas vezes não é possível estudar toda a população (recenseamento) por ela ser infinita, por falta de meios, por questões de custo ou muito simplesmente por a sua observação ser destrutiva. Nestes casos o estudo basear-se-à na observação de apenas uma pequena parte da população, a amostra.
As técnicas de amostragem permitem aumentar a precisão dos resultados
sem aumentar os custos, conseguindo determinar a dimensão da amostra ideal para determinada precisão pretendida (ou vice-versa). Diferentes métodos de amostragem são utilizados dependendo do conhecimento ou desconhecimento da população sobre a qual vai recair o estudo. Amostragem aleatória simples: Dada uma população, uma amostra aleatória simples é uma amostra em que qualquer elemento da população tem igual probabilidade de ser seleccionado para pertencer à amostra. Amostragem sistemática: Na prática o processo de seleccionar uma amostra aleatória simples, principalmente se a dimensão da população for grande, é um pouco trabalhoso. A alternativa é recorrer à amostragem sistemática, que consiste em ordenar por algum critério a população, escolher um intervalo de selecção I=N/n ( N= dimensão da população e n= dimensão da amostra), escolher aleatoriamente uma unidade de entre as primeiras I e finalmente seleccionar as unidades que distam, I, 2I , 3I ... unidades, da primeira escolhida. Amostragem estratificada: Para se proceder à selecção de uma amostra estratificada, divide-se a população em estratos (subpopulações) e de cada estrato extrai-se aleatoriamente uma amostra. O conjunto de todas essas amostras constitui a amostra pretendida. Amostragem por “clusters” (conglomerados): Para se proceder a este tipo de amostragem a população deve ser dividida em “clusters” (conglomerados de elementos da população, representativos dessa mesma população). Seleccionados aleatoriamente alguns “clusters”, a amostra é composta por todos os seus elementos.
Quanto à forma como os dados são obtidos podemos classificar a recolha como directa ou indirecta.
Os dados obtidos através de inquéritos, registos ou ficheiros, consideram-se recolhidos de forma directa e são chamados dados primários. Aos dados
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 3
calculados a partir de dados primários, ou seja, através de recolha indirecta são chamados dados secundários.
Se considerarmos a periodicidade com que é feita essa recolha, pode-se classificar como contínua, periódica ou ocasional:
• contínua - realiza-se permanentemente • periódica - feita em intervalos de tempo • ocasional - realiza-se de modo esporádico Ao estudar uma população (ou uma amostra de uma população) pretende-se
conhecer as suas características ou atributos para que posteriormente seja possível tomar decisões com base nesse conhecimento (fazer comparações com outras populações, fazer previsões para o futuro etc).
Se os dados resultantes das observações identificam alguma qualidade, categoria ou característica, não susceptível de medida, assumindo várias modalidade, dizem-se quantitativos
As várias modalidades registam-se numa escala nominal se a ordem das
modalidades não tem significado e numa escala ordinal se as modalidades têm uma relação de ordem entre elas.
Se os dados resultantes das observações resultam de características
susceptíveis de serem medidas dizem-se qualitativos e apresentam diferentes intensidades ou valores.
Para representar os diferentes valores que uma característica quantitativa
pode tomar, utilizam-se variáveis que se representam por letras maiúsculas (X , Y , Z). Assim poderemos falar de variáveis discretas, se tomam um número finito ou infinito numerável de valores, e contínuas se poderem tomar uma infinidade de valores dentro de um intervalo. 2. Técnicas básicas de tratamento de dados
Exemplo: Consideremos o seguinte conjunto de dados, que representam as idades
dos alunos de uma turma.
20 19 21 25 20 24 21 23 20 18
20 18 25 23 20 18 19 18 19 22
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 4
Tabela de frequências idades
xi
contagem
Frequência absoluta
ni
Frequência absoluta
acumulada nai
Frequência relativa
fi
Frequência relativa
acumulada fai
18 |||| 4 4 4/20=0,2 4/20=0,2 19 ||| 3 7 3/20=0,15 7/20= 0,35 20 |||| 5 12 5/20=0,25 12/20= 0,6 21 || 2 14 2/20=0,1 14/20= 0,7 22 | 1 15 1/20=0,05 15/20= 0,75 23 || 2 17 2/20=0,1 17/20= 0,85 24 | 1 18 1/20=0,05 18/20= 0,9 25 || 2 20 2/20=0,1 20/20= 1
No caso de o estudo recair sobre uma variável aleatória contínua (peso,
altura, temperatura etc.), devido à infinidade de valores que a variável pode assumir é necessário agrupar esses valores em intervalos de classes1, de forma a simplificar todos os procedimentos posteriores.
Para determinar o número de classes ( k ) existem diversos métodos. No
método apresentado por Velleman em 1976, k é o maior inteiro contido em n2 . Na fórmula de Sturges, o método mais utilizado,
+=
2ln
ln1
nk
onde [ ] representa a parte inteira e ln o logaritmo de base e. Nota: O número de classes não deve ser inferior a 4 nem superior a 14.
4 14≤ ≤k Depois de se determinar quantas classes se usarão segue-se a construção
das classes2, que consiste na determinação da amplitude de cada classe e dos seus limites. Para tal deve-se obedecer a algumas regras básicas:
• nenhuma classe deverá ter frequência nula
• as classes devem ter , sempre que possível, amplitudes iguais
• os pontos médios das classes deverão ser valores de fácil cálculo (ponto
médio da classe ou centro da classe é a semi-soma do limite superior e inferior da classe)
• evitar classes abertas
1 Também no caso de variáveis aleatórias discretas que apresentem uma grande diversidade
de valores é aconselhável a “criação” de classes. 2 Para simplificar a construção das classes poderemos começar pelo centro da classe central,
no caso de k ser impar, ou no extremo superior da (k+1)/2 ésima classe, se k for par.
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 5
• os limites das classes devem ser definidos de modo a que cada valor da variável pertença a uma e uma só classe. Consideraremos classes
fechadas à esquerda e abertas à direita, isto é, o limite inferior do intervalo pertence à classe mas o limite superior não.
A amplitude de cada classe (ai) será calculada dividindo a amplitude total
dos dados em estudo (R=xmax-xmin) pelo número de classes pretendidas:
aR
ki =
Exemplo : Consideremos as alturas (em cm) de 20 indivíduos
n=20 k = 1 +[ log 20/log2] = 5
ai = 5,4 ≈ 6 .
[148,154[ [154,160[ [160,166[ [166,172[ [172,178[ Adaptando o procedimento descrito anteriormente para variáveis discretas,
constroi-se a tabela de frequências para variáveis contínuas. A grande diferença consiste em contar quantos elementos da população
“caem” dentro de cada classe, atendendo aos valores da variável estatística. Exercício: As classificações obtidas pelos alunos de Turismo, no ano lectivo de
99/00, à cadeira de Métodos Estatísticos foram os seguintes: 11,5 6,8 7,5 12,6 9,6 10,1 13,5 7,9 10,3 8,6 14,7 13,1 10,5 10,7 8,8 10,0 10,9 13,2 9,7 11,8 15,2 8,0 9,8 11,1 9,1 9,9 12,1 13,9 10,8 10,2 7,3 14,2 10,6 13,3 12,0 8,2 11,2 10,4 12,8 12,3 Construa uma tabela de frequências, distribuindo convenientemente os dados por classes.
151 157 158 156 160 176 150 149 162 153
163 170 172 171 164 173 166 165 160 158
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 6
Gráfico de barras:
Sectograma ou gráfico circular
A representação gráfica de distribuições de frequências de variáveis
contínuas é obtida por meio de um diagrama de áreas, o histograma. Este gráfico é formado por uma sucessão de rectângulos adjacentes tendo cada um por base um intervalo de classe e por altura a respectiva frequência absoluta (ou relativa).
HISTOGRAMA
0
1
2
3
4
5
6
7
148 154 160 166 172 178 I D A D E S
F
R
E
Q
A
B
S
O
L
U
T
A
S
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 7
2.2. Medidas de localização
2.2.1. Medidas de tendência central
A média, x ,é das medidas de tendência central, a mais usada.
n
x
x
n
i
i∑== 1
n
xn
x
k
i
ii∑=
=1
onde: k é o número de valores que a variável pode tomar ni é a frequência absoluta do valor xi da variável.
n
cn
x
n
i
ii∑== 1
onde: ci é o centro (ou ponto médio) da classe i.
Para dados simples, após ordenar os n dados, a mediana é:
• o valor que se encontra na posição 2
1+n (se n é impar)
• a semi-soma dos valores nas posições n n
2 21 e + ( se n é par).
Para dados agrupados em classes
i
i
a
i af
f,lMe i ⋅
−+= −1
50
ou usando frequências absolutas:
Limite inferior da classe mediana
Frequência relativa da classe mediana
Amplitude da classe mediana
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 8
i
i
a
i an
nn
lMei
⋅
−
+=−12
A moda, Mo, é definida como o valor da variável que mais se repete, ou
seja, o que tem maior frequência. Para dados simples e dados agrupados discretos (não em classes) a
determinação da moda resume-se a encontrar o valor que se destaca dos outros por apresentar maior frequência.
Para dados agrupados em classes
ii alMo ⋅∆+∆
∆+=
21
1
i
ii
ii a
FF
FlMo ⋅
++=
+−
+
11
1
Em função do número de modas que apresentam, as distribuições podem
ser classificadas como unimodais (1 moda), bimodais (2 modas) ou plurimodais (mais de 2 modas).
Limite inferior da classe modal
Frequência absoluta da classe posterior à classe modal
Frequência absoluta da classe anterior à classe modal
Amplitude da classe modal
Acréscimo da frequência da classe modal relativamente à
frequência da classe imediatamente anterior
Acréscimo da frequência da classe modal relativamente à frequência da classe imediatamente posterior
Frequência absoluta acumulada da classe anterior à classe mediana
Frequência absoluta da classe mediana
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 9
2.2.2. Medidas de tendência não central
As medidas de tendência não central chamam-se, em termos gerais, quantis
e dividem-se em três categorias, quartis, decis e percentis. Os quartis são os valores da variável que dividem a distribuição de
frequências em quatro partes iguais. O primeiro quartil, Q1 , é o valor da variável ( o menor possível) tal que a percentagem de observações inferiores ou iguais a este é 25%. O segundo quartil, Q2 , coincide com a mediana uma vez que é o valor da variável ( o menor possível) tal que a percentagem de observações inferiores ou iguais a este é 50%. O terceiro quartil, Q3 , é o valor da variável ( o menor possível) tal que a percentagem de observações inferiores ou iguais a este é 75%.
Os decis (D1 , D2 , ... , D9 )são os valores da variável que dividem a
distribuição em dez partes iguais Os percentis (P1 , P2 , ... , P99 )são os valores da variável que dividem a
distribuição em cem partes iguais Para o cálculo destas medidas adapta-se, à percentagem pretendida, o procedimento descrito para a mediana. Exemplo : Consideremos a seguinte tabela de frequências:
Xi ni nai fi fai [1 , 4[ 2 2 0,167 0,167 [4 , 7[ 3 5 0,250 0,417 [7 , 10[ 5 10 0,417 0,834 [10 , 12[ 2 12 0,167 1,001
Se pretender-mos, por exemplo, calcular o P35 (35º percentil) vem:
i
i
a
i af
f,lP i ⋅
−+= −1
35035
O 1º passo consiste em “descobrir” qual a classe que contém os 35%. Para tal recorre-se à coluna das frequências relativas acumuladas e procura-se a classe que contém os 35%.
Facilmente se verifica que a classe em questão é a segunda , [4 , 7[ . Substituindo na formula acima os valores correspondentes
vem: 196,6325,0
167,0350435 =×
−+=
,P .
Limite inferior da classe que contém os 35%
Frequência relativa da classe que contém os 35%
Frequência relativa acumulada da classe anterior à classe que contém os 35%
Amplitude da classe que contém os 35%
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 10
Para descrever resumidamente a distribuição usa-se um esquema chamado diagrama de extremos3 (box-plot)
0% 25% 50% 75% 100%
Mínimo Q1 Me=Q2 Q3 Máximo
2.3. Medidas de dispersão. Medidas de assimetria e achatamento. 2.3.1. Medidas de dispersão absoluta
As medidas de dispersão podem ser divididas em duas categorias, as medidas de distância e as medidas que utilizam uma medida de localização como termo de comparação.
As medidas de distância, que se apresentam na mesma unidade de medida dos dados originais, são intervalo de variação e o intervalo inter-quartis.
O intervalo de variação4 (amplitude total), definido como a diferença entre
o maior e o menor valor da variável R = xmax - xmin
tem a desvantagem de ter apenas em conta os valores extremos e, portanto não ser sensível aos valores intermédios.
O intervalo inter-quartis definido como a diferença entre o 1º e o 3º quartis
IQ = Q3 - Q1, ao englobar 50% das observações centrais, tem a desvantagem de não considerar os valores extremos.
3 Vulgarmente chamado caixa-de-bigodes.
4 Quando os dados estão agrupados em classes, R é a diferença entre o limite superior da última classe e o
limite inferior da primeira classe.
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 11
Uma vez que as medidas de dispersão anteriores não permitem, muitas vezes, obter uma informação completa sobre a variabilidade, há a necessidade de
introduzir outro tipo de medidas de dispersão, que tenham em conta a posição de todos os valores em relação a uma referência fixa.
As medidas que utilizam uma medida de localização como termo de
comparação são: o desvio absoluto médio
Dados agrupados Dados não agrupados
Discretos Contínuos
n
xx
DM
n
i
i∑=
−
= 1 n
xxn
DM
k
i
ii∑=
−
= 1 n
xcn
DM
k
i
ii∑=
−
= 1
a variância (desvio médio quadrático) e o desvio padrão :
Variância Desvio padrão
Dados não agrupados
( )
n
xx
s
n
i
i∑=
−
=1
2
2
( )
n
xx
s
n
i
i∑=
−
=1
2
discretos
( )
n
xxn
s
k
i
ii∑=
−
=1
2
2
( )
n
xxn
s
k
i
ii∑=
−
=1
2
Dados agrupados
contínuos
( )
n
xcn
s
k
i
ii∑=
−
=1
2
2
( )
n
xcn
s
k
i
ii∑=
−
=1
2
2.3.2. Medidas de dispersão relativa
Quando se pretende comparar a dispersão entre dois ou mais conjuntos de dados, mesmo venham expressos em unidades diferentes, usam-se medidas de dispersão relativa5.
5 Só é possível usar estas medidas se as variáveis em estudo tomarem valores de um único
sinal (ou todos positivos ou todos negativos).
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 12
O coeficiente de dispersão
x
sCD =
e o coeficiente de variação
%100⋅=x
sCV ,
permitem a compreensão, em termos relativos, do grau de concentração em torno da média .
Um coeficiente de variação superior a 50% indica uma grande dispersão
relativa e uma pequena representatividade da média como medida estatística. 2.3.3. Medidas de assimetria
A assimetria de uma distribuição de frequência é classificada em função da posição relativa de média, moda e mediana e é tanto mais assimétrica quanto mais afastadas estas medidas estiverem.
A distribuição diz-se simétrica se MoMex == (isto é, se média, moda e mediana coincidirem). Se MoMex ≤≤ a distribuição diz-se assimétrica negativa (ou enviesada à direita) e se MoMex ≥≥ a distribuição diz-se assimétrica positiva (ou enviesada à esquerda).
Mo
Me
x
MoMex xMeMo
Existem vários coeficientes que permitem medir o grau de assimetria. O
coeficiente mais usado é chamado primeiro coeficiente de Pearson:
s
Moxg
−=1
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 13
A classificação da assimetria faz-se em função do sinal do coeficiente. Se
1g = 0 a distribuição é simétrica, se 1g > 0 a distribuição é assimétrica positiva
e se 1g < 0 a distribuição é assimétrica negativa.
Se não se dispuser da média e do desvio padrão, é possível calcular o grau
de assimetria utilizando apenas os valores dos quartis, através do segundo coeficiente de Pearson (também chamado grau de Bowley):
( ) ( )
( ) ( ) 13
13
13
123
1223
12232
22
QMQ
QQQ
QQQQ
QQQQg e
−
+−=
−
+−=
−+−
−−−=
É também possível calcular um coeficiente de dispersão através do cálculo
de momentos, o coeficiente de Fisher:
2
33
m
mq = onde
( )
n
xxn
m
n
i
k
ii
k
∑=
−
= 1 .
2.3.4. Medidas de achatamento ou curtose
As medidas de achatamento (ou curtose) dão uma indicação da intensidade das frequências na vizinhança dos valores centrais.
A classificação de qualquer distribuição de frequência faz-se através do grau de curtose:
( )1090
13
2 PP
QQK
−
−=
por comparação com a distribuição Normal cujo grau de curtose é 0,263. Assim se K=0,263 a distribuição é mesocúrtica, se K<0,263 a distribuição é leptocúrtica e se K>0,263 a distribuição é platicúrtica.
Estatística descritiva
Carla Maria Lopes da Silva Afonso dos Santos 14
Exercício: Considere os resultados finais de Matemática de 20 alunos de uma
Universidade:
9 14 12 8 14 12 16 16 8 14
11 12 14 11 11 18 14 18 15 15
Determine as frequências absolutas e relativas (simples e acumuladas) a. Calcule a amplitude total da amostra
b. Represente graficamente as frequências absolutas e relativas
c. Calcule a média, a moda e a mediana. d. Determine e interprete P75 e P90 e. Calcule a variância e o desvio padrão f. Calcule os coeficientes de dispersão e de variação g. Calcule o grau de assimetria de Pearson. Que conclui sobre a simetria da
amostra?
h. Calcule o coeficiente percentílico de curtose e classifique a distribuição quanto ao achatamento.
Exercício: Considere a seguinte distribuição de frequências, correspondentes ao
número de defeitos detectados nas peças de tecido produzidas no último trimestre, na Fábrica Nacional de Tecidos:
Classes [ 5 ; 15 [ [ 15 ; 25 [ [ 25 ; 35 [ [ 35 ; 45 [ [ 45 ; 55 [ [ 55 ; 65 [
Frequências absolutas
4 8 14 20 11 3
a. Qual a população e a variável em estudo?
b. Calcule a média de defeitos por peça de tecido?
c. Quantas peças de tecido apresentaram no máximo 20 defeitos?
d. Calcule a moda e a mediana e interprete os valores obtidos.
e. Calcule o coeficiente de variação.
f. Classifique a simetria da distribuição através do cálculo do coeficiente de
Pearson .
g. Calcule e interprete o coeficiente percentílico de curtose.