Estat descritiva-FREQ

14
Á r e a D e p a r t a m e n t a l d e M a t e m á t i c a E s t a t í s t i c a D e s c r i t i v a Carla Maria Lopes da Silva Afonso dos Santos 2006/2007

description

Estatistica Descritiva

Transcript of Estat descritiva-FREQ

Page 1: Estat descritiva-FREQ

Á r e a D e p a r t a m e n t a l d e M a t e m á t i c a

E s t a t í s t i c a

D e s c r i t i v a

Carla Maria Lopes da Silva Afonso dos Santos

2006/2007

Page 2: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 2

1. Introdução

A Estatística descritiva consiste na recolha, apresentação, análise e interpretação de dados através da criação de instrumentos adequados.

Uma das primeiras fases da planificação de um estudo estatístico consiste na

definição exacta de quais os indivíduos (pessoas, animais ou objectos) que interessa estudar. O conjunto de indivíduos ou objectos que apresentam uma ou mais características em comum e sobre os quais recai o estudo designa-se por População (ou Universo), podendo esta população ser finita ou infinita.

Cada um dos elementos da população sobre os quais recai o estudo designa-se por unidade estatística.

Ao realizar um estudo estatístico, muitas vezes não é possível estudar toda a população (recenseamento) por ela ser infinita, por falta de meios, por questões de custo ou muito simplesmente por a sua observação ser destrutiva. Nestes casos o estudo basear-se-à na observação de apenas uma pequena parte da população, a amostra.

As técnicas de amostragem permitem aumentar a precisão dos resultados

sem aumentar os custos, conseguindo determinar a dimensão da amostra ideal para determinada precisão pretendida (ou vice-versa). Diferentes métodos de amostragem são utilizados dependendo do conhecimento ou desconhecimento da população sobre a qual vai recair o estudo. Amostragem aleatória simples: Dada uma população, uma amostra aleatória simples é uma amostra em que qualquer elemento da população tem igual probabilidade de ser seleccionado para pertencer à amostra. Amostragem sistemática: Na prática o processo de seleccionar uma amostra aleatória simples, principalmente se a dimensão da população for grande, é um pouco trabalhoso. A alternativa é recorrer à amostragem sistemática, que consiste em ordenar por algum critério a população, escolher um intervalo de selecção I=N/n ( N= dimensão da população e n= dimensão da amostra), escolher aleatoriamente uma unidade de entre as primeiras I e finalmente seleccionar as unidades que distam, I, 2I , 3I ... unidades, da primeira escolhida. Amostragem estratificada: Para se proceder à selecção de uma amostra estratificada, divide-se a população em estratos (subpopulações) e de cada estrato extrai-se aleatoriamente uma amostra. O conjunto de todas essas amostras constitui a amostra pretendida. Amostragem por “clusters” (conglomerados): Para se proceder a este tipo de amostragem a população deve ser dividida em “clusters” (conglomerados de elementos da população, representativos dessa mesma população). Seleccionados aleatoriamente alguns “clusters”, a amostra é composta por todos os seus elementos.

Quanto à forma como os dados são obtidos podemos classificar a recolha como directa ou indirecta.

Os dados obtidos através de inquéritos, registos ou ficheiros, consideram-se recolhidos de forma directa e são chamados dados primários. Aos dados

Page 3: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 3

calculados a partir de dados primários, ou seja, através de recolha indirecta são chamados dados secundários.

Se considerarmos a periodicidade com que é feita essa recolha, pode-se classificar como contínua, periódica ou ocasional:

• contínua - realiza-se permanentemente • periódica - feita em intervalos de tempo • ocasional - realiza-se de modo esporádico Ao estudar uma população (ou uma amostra de uma população) pretende-se

conhecer as suas características ou atributos para que posteriormente seja possível tomar decisões com base nesse conhecimento (fazer comparações com outras populações, fazer previsões para o futuro etc).

Se os dados resultantes das observações identificam alguma qualidade, categoria ou característica, não susceptível de medida, assumindo várias modalidade, dizem-se quantitativos

As várias modalidades registam-se numa escala nominal se a ordem das

modalidades não tem significado e numa escala ordinal se as modalidades têm uma relação de ordem entre elas.

Se os dados resultantes das observações resultam de características

susceptíveis de serem medidas dizem-se qualitativos e apresentam diferentes intensidades ou valores.

Para representar os diferentes valores que uma característica quantitativa

pode tomar, utilizam-se variáveis que se representam por letras maiúsculas (X , Y , Z). Assim poderemos falar de variáveis discretas, se tomam um número finito ou infinito numerável de valores, e contínuas se poderem tomar uma infinidade de valores dentro de um intervalo. 2. Técnicas básicas de tratamento de dados

Exemplo: Consideremos o seguinte conjunto de dados, que representam as idades

dos alunos de uma turma.

20 19 21 25 20 24 21 23 20 18

20 18 25 23 20 18 19 18 19 22

Page 4: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 4

Tabela de frequências idades

xi

contagem

Frequência absoluta

ni

Frequência absoluta

acumulada nai

Frequência relativa

fi

Frequência relativa

acumulada fai

18 |||| 4 4 4/20=0,2 4/20=0,2 19 ||| 3 7 3/20=0,15 7/20= 0,35 20 |||| 5 12 5/20=0,25 12/20= 0,6 21 || 2 14 2/20=0,1 14/20= 0,7 22 | 1 15 1/20=0,05 15/20= 0,75 23 || 2 17 2/20=0,1 17/20= 0,85 24 | 1 18 1/20=0,05 18/20= 0,9 25 || 2 20 2/20=0,1 20/20= 1

No caso de o estudo recair sobre uma variável aleatória contínua (peso,

altura, temperatura etc.), devido à infinidade de valores que a variável pode assumir é necessário agrupar esses valores em intervalos de classes1, de forma a simplificar todos os procedimentos posteriores.

Para determinar o número de classes ( k ) existem diversos métodos. No

método apresentado por Velleman em 1976, k é o maior inteiro contido em n2 . Na fórmula de Sturges, o método mais utilizado,

+=

2ln

ln1

nk

onde [ ] representa a parte inteira e ln o logaritmo de base e. Nota: O número de classes não deve ser inferior a 4 nem superior a 14.

4 14≤ ≤k Depois de se determinar quantas classes se usarão segue-se a construção

das classes2, que consiste na determinação da amplitude de cada classe e dos seus limites. Para tal deve-se obedecer a algumas regras básicas:

• nenhuma classe deverá ter frequência nula

• as classes devem ter , sempre que possível, amplitudes iguais

• os pontos médios das classes deverão ser valores de fácil cálculo (ponto

médio da classe ou centro da classe é a semi-soma do limite superior e inferior da classe)

• evitar classes abertas

1 Também no caso de variáveis aleatórias discretas que apresentem uma grande diversidade

de valores é aconselhável a “criação” de classes. 2 Para simplificar a construção das classes poderemos começar pelo centro da classe central,

no caso de k ser impar, ou no extremo superior da (k+1)/2 ésima classe, se k for par.

Page 5: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 5

• os limites das classes devem ser definidos de modo a que cada valor da variável pertença a uma e uma só classe. Consideraremos classes

fechadas à esquerda e abertas à direita, isto é, o limite inferior do intervalo pertence à classe mas o limite superior não.

A amplitude de cada classe (ai) será calculada dividindo a amplitude total

dos dados em estudo (R=xmax-xmin) pelo número de classes pretendidas:

aR

ki =

Exemplo : Consideremos as alturas (em cm) de 20 indivíduos

n=20 k = 1 +[ log 20/log2] = 5

ai = 5,4 ≈ 6 .

[148,154[ [154,160[ [160,166[ [166,172[ [172,178[ Adaptando o procedimento descrito anteriormente para variáveis discretas,

constroi-se a tabela de frequências para variáveis contínuas. A grande diferença consiste em contar quantos elementos da população

“caem” dentro de cada classe, atendendo aos valores da variável estatística. Exercício: As classificações obtidas pelos alunos de Turismo, no ano lectivo de

99/00, à cadeira de Métodos Estatísticos foram os seguintes: 11,5 6,8 7,5 12,6 9,6 10,1 13,5 7,9 10,3 8,6 14,7 13,1 10,5 10,7 8,8 10,0 10,9 13,2 9,7 11,8 15,2 8,0 9,8 11,1 9,1 9,9 12,1 13,9 10,8 10,2 7,3 14,2 10,6 13,3 12,0 8,2 11,2 10,4 12,8 12,3 Construa uma tabela de frequências, distribuindo convenientemente os dados por classes.

151 157 158 156 160 176 150 149 162 153

163 170 172 171 164 173 166 165 160 158

Page 6: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 6

Gráfico de barras:

Sectograma ou gráfico circular

A representação gráfica de distribuições de frequências de variáveis

contínuas é obtida por meio de um diagrama de áreas, o histograma. Este gráfico é formado por uma sucessão de rectângulos adjacentes tendo cada um por base um intervalo de classe e por altura a respectiva frequência absoluta (ou relativa).

HISTOGRAMA

0

1

2

3

4

5

6

7

148 154 160 166 172 178 I D A D E S

F

R

E

Q

A

B

S

O

L

U

T

A

S

Page 7: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 7

2.2. Medidas de localização

2.2.1. Medidas de tendência central

A média, x ,é das medidas de tendência central, a mais usada.

n

x

x

n

i

i∑== 1

n

xn

x

k

i

ii∑=

=1

onde: k é o número de valores que a variável pode tomar ni é a frequência absoluta do valor xi da variável.

n

cn

x

n

i

ii∑== 1

onde: ci é o centro (ou ponto médio) da classe i.

Para dados simples, após ordenar os n dados, a mediana é:

• o valor que se encontra na posição 2

1+n (se n é impar)

• a semi-soma dos valores nas posições n n

2 21 e + ( se n é par).

Para dados agrupados em classes

i

i

a

i af

f,lMe i ⋅

−+= −1

50

ou usando frequências absolutas:

Limite inferior da classe mediana

Frequência relativa da classe mediana

Amplitude da classe mediana

Page 8: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 8

i

i

a

i an

nn

lMei

+=−12

A moda, Mo, é definida como o valor da variável que mais se repete, ou

seja, o que tem maior frequência. Para dados simples e dados agrupados discretos (não em classes) a

determinação da moda resume-se a encontrar o valor que se destaca dos outros por apresentar maior frequência.

Para dados agrupados em classes

ii alMo ⋅∆+∆

∆+=

21

1

i

ii

ii a

FF

FlMo ⋅

++=

+−

+

11

1

Em função do número de modas que apresentam, as distribuições podem

ser classificadas como unimodais (1 moda), bimodais (2 modas) ou plurimodais (mais de 2 modas).

Limite inferior da classe modal

Frequência absoluta da classe posterior à classe modal

Frequência absoluta da classe anterior à classe modal

Amplitude da classe modal

Acréscimo da frequência da classe modal relativamente à

frequência da classe imediatamente anterior

Acréscimo da frequência da classe modal relativamente à frequência da classe imediatamente posterior

Frequência absoluta acumulada da classe anterior à classe mediana

Frequência absoluta da classe mediana

Page 9: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 9

2.2.2. Medidas de tendência não central

As medidas de tendência não central chamam-se, em termos gerais, quantis

e dividem-se em três categorias, quartis, decis e percentis. Os quartis são os valores da variável que dividem a distribuição de

frequências em quatro partes iguais. O primeiro quartil, Q1 , é o valor da variável ( o menor possível) tal que a percentagem de observações inferiores ou iguais a este é 25%. O segundo quartil, Q2 , coincide com a mediana uma vez que é o valor da variável ( o menor possível) tal que a percentagem de observações inferiores ou iguais a este é 50%. O terceiro quartil, Q3 , é o valor da variável ( o menor possível) tal que a percentagem de observações inferiores ou iguais a este é 75%.

Os decis (D1 , D2 , ... , D9 )são os valores da variável que dividem a

distribuição em dez partes iguais Os percentis (P1 , P2 , ... , P99 )são os valores da variável que dividem a

distribuição em cem partes iguais Para o cálculo destas medidas adapta-se, à percentagem pretendida, o procedimento descrito para a mediana. Exemplo : Consideremos a seguinte tabela de frequências:

Xi ni nai fi fai [1 , 4[ 2 2 0,167 0,167 [4 , 7[ 3 5 0,250 0,417 [7 , 10[ 5 10 0,417 0,834 [10 , 12[ 2 12 0,167 1,001

Se pretender-mos, por exemplo, calcular o P35 (35º percentil) vem:

i

i

a

i af

f,lP i ⋅

−+= −1

35035

O 1º passo consiste em “descobrir” qual a classe que contém os 35%. Para tal recorre-se à coluna das frequências relativas acumuladas e procura-se a classe que contém os 35%.

Facilmente se verifica que a classe em questão é a segunda , [4 , 7[ . Substituindo na formula acima os valores correspondentes

vem: 196,6325,0

167,0350435 =×

−+=

,P .

Limite inferior da classe que contém os 35%

Frequência relativa da classe que contém os 35%

Frequência relativa acumulada da classe anterior à classe que contém os 35%

Amplitude da classe que contém os 35%

Page 10: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 10

Para descrever resumidamente a distribuição usa-se um esquema chamado diagrama de extremos3 (box-plot)

0% 25% 50% 75% 100%

Mínimo Q1 Me=Q2 Q3 Máximo

2.3. Medidas de dispersão. Medidas de assimetria e achatamento. 2.3.1. Medidas de dispersão absoluta

As medidas de dispersão podem ser divididas em duas categorias, as medidas de distância e as medidas que utilizam uma medida de localização como termo de comparação.

As medidas de distância, que se apresentam na mesma unidade de medida dos dados originais, são intervalo de variação e o intervalo inter-quartis.

O intervalo de variação4 (amplitude total), definido como a diferença entre

o maior e o menor valor da variável R = xmax - xmin

tem a desvantagem de ter apenas em conta os valores extremos e, portanto não ser sensível aos valores intermédios.

O intervalo inter-quartis definido como a diferença entre o 1º e o 3º quartis

IQ = Q3 - Q1, ao englobar 50% das observações centrais, tem a desvantagem de não considerar os valores extremos.

3 Vulgarmente chamado caixa-de-bigodes.

4 Quando os dados estão agrupados em classes, R é a diferença entre o limite superior da última classe e o

limite inferior da primeira classe.

Page 11: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 11

Uma vez que as medidas de dispersão anteriores não permitem, muitas vezes, obter uma informação completa sobre a variabilidade, há a necessidade de

introduzir outro tipo de medidas de dispersão, que tenham em conta a posição de todos os valores em relação a uma referência fixa.

As medidas que utilizam uma medida de localização como termo de

comparação são: o desvio absoluto médio

Dados agrupados Dados não agrupados

Discretos Contínuos

n

xx

DM

n

i

i∑=

= 1 n

xxn

DM

k

i

ii∑=

= 1 n

xcn

DM

k

i

ii∑=

= 1

a variância (desvio médio quadrático) e o desvio padrão :

Variância Desvio padrão

Dados não agrupados

( )

n

xx

s

n

i

i∑=

=1

2

2

( )

n

xx

s

n

i

i∑=

=1

2

discretos

( )

n

xxn

s

k

i

ii∑=

=1

2

2

( )

n

xxn

s

k

i

ii∑=

=1

2

Dados agrupados

contínuos

( )

n

xcn

s

k

i

ii∑=

=1

2

2

( )

n

xcn

s

k

i

ii∑=

=1

2

2.3.2. Medidas de dispersão relativa

Quando se pretende comparar a dispersão entre dois ou mais conjuntos de dados, mesmo venham expressos em unidades diferentes, usam-se medidas de dispersão relativa5.

5 Só é possível usar estas medidas se as variáveis em estudo tomarem valores de um único

sinal (ou todos positivos ou todos negativos).

Page 12: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 12

O coeficiente de dispersão

x

sCD =

e o coeficiente de variação

%100⋅=x

sCV ,

permitem a compreensão, em termos relativos, do grau de concentração em torno da média .

Um coeficiente de variação superior a 50% indica uma grande dispersão

relativa e uma pequena representatividade da média como medida estatística. 2.3.3. Medidas de assimetria

A assimetria de uma distribuição de frequência é classificada em função da posição relativa de média, moda e mediana e é tanto mais assimétrica quanto mais afastadas estas medidas estiverem.

A distribuição diz-se simétrica se MoMex == (isto é, se média, moda e mediana coincidirem). Se MoMex ≤≤ a distribuição diz-se assimétrica negativa (ou enviesada à direita) e se MoMex ≥≥ a distribuição diz-se assimétrica positiva (ou enviesada à esquerda).

Mo

Me

x

MoMex xMeMo

Existem vários coeficientes que permitem medir o grau de assimetria. O

coeficiente mais usado é chamado primeiro coeficiente de Pearson:

s

Moxg

−=1

Page 13: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 13

A classificação da assimetria faz-se em função do sinal do coeficiente. Se

1g = 0 a distribuição é simétrica, se 1g > 0 a distribuição é assimétrica positiva

e se 1g < 0 a distribuição é assimétrica negativa.

Se não se dispuser da média e do desvio padrão, é possível calcular o grau

de assimetria utilizando apenas os valores dos quartis, através do segundo coeficiente de Pearson (também chamado grau de Bowley):

( ) ( )

( ) ( ) 13

13

13

123

1223

12232

22

QQ

QMQ

QQ

QQQ

QQQQ

QQQQg e

+−=

+−=

−+−

−−−=

É também possível calcular um coeficiente de dispersão através do cálculo

de momentos, o coeficiente de Fisher:

2

33

m

mq = onde

( )

n

xxn

m

n

i

k

ii

k

∑=

= 1 .

2.3.4. Medidas de achatamento ou curtose

As medidas de achatamento (ou curtose) dão uma indicação da intensidade das frequências na vizinhança dos valores centrais.

A classificação de qualquer distribuição de frequência faz-se através do grau de curtose:

( )1090

13

2 PP

QQK

−=

por comparação com a distribuição Normal cujo grau de curtose é 0,263. Assim se K=0,263 a distribuição é mesocúrtica, se K<0,263 a distribuição é leptocúrtica e se K>0,263 a distribuição é platicúrtica.

Page 14: Estat descritiva-FREQ

Estatística descritiva

Carla Maria Lopes da Silva Afonso dos Santos 14

Exercício: Considere os resultados finais de Matemática de 20 alunos de uma

Universidade:

9 14 12 8 14 12 16 16 8 14

11 12 14 11 11 18 14 18 15 15

Determine as frequências absolutas e relativas (simples e acumuladas) a. Calcule a amplitude total da amostra

b. Represente graficamente as frequências absolutas e relativas

c. Calcule a média, a moda e a mediana. d. Determine e interprete P75 e P90 e. Calcule a variância e o desvio padrão f. Calcule os coeficientes de dispersão e de variação g. Calcule o grau de assimetria de Pearson. Que conclui sobre a simetria da

amostra?

h. Calcule o coeficiente percentílico de curtose e classifique a distribuição quanto ao achatamento.

Exercício: Considere a seguinte distribuição de frequências, correspondentes ao

número de defeitos detectados nas peças de tecido produzidas no último trimestre, na Fábrica Nacional de Tecidos:

Classes [ 5 ; 15 [ [ 15 ; 25 [ [ 25 ; 35 [ [ 35 ; 45 [ [ 45 ; 55 [ [ 55 ; 65 [

Frequências absolutas

4 8 14 20 11 3

a. Qual a população e a variável em estudo?

b. Calcule a média de defeitos por peça de tecido?

c. Quantas peças de tecido apresentaram no máximo 20 defeitos?

d. Calcule a moda e a mediana e interprete os valores obtidos.

e. Calcule o coeficiente de variação.

f. Classifique a simetria da distribuição através do cálculo do coeficiente de

Pearson .

g. Calcule e interprete o coeficiente percentílico de curtose.