APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras -...

16
Estatística e Probabilidade Prof. Robson Soares Ferreira Introdução à Estatística. Medidas de posição e medidas de dispersão.

Transcript of APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras -...

Page 1: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

Estatística e Probabilidade

Prof. Robson Soares Ferreira

Introdução à Estatística.

Medidas de posição e medidas de dispersão.

Page 2: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

Estatística - Introdução

É uma parte da matemática aplicada que fornece métodos para a coleta, organização,

descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de

decisões.

A coleta, organização e a descrição dos dados estão a cargo da Estatística descritiva, enquanto

que a análise e a interpretação ficam a cargo da Estatística Indutiva ou Inferencial.

Fases do método estatístico:

Coleta de dados;

Crítica dos dados;

Exposição ou apresentações dos dados;

Análise ou apresentação dos dados.

População – Ao conjunto de entes portadores de, pelo menos, uma característica comum

denominamos população estatística ou universo estatístico.

Amostra – Um subconjunto da população. Para as inferências serem corretas, é necessário

garantir que a amostra possua pelo menos uma característica básica da população.

Tabelas – É um resumo dos dados. Numa tabela devem ter:

Título – O quê?

Quando?

Onde?

Corpo - As informações sobre a variável em estudo

Fonte – Notas ou chamadas no rodapé (Quem?)

Gráficos – É uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir,

no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em

estudo. A apresentação do gráfico deve ser clara, simples e objetiva.

Levantamento estatístico

Fases do trabalho estatístico:

Definição do problema

Coleta de dados

Apuração dos dados

Apresentação dos dados (tabelas e gráficos)

Análise e informação.

Conclusão

2

Page 3: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

Qualitativas

(qualidade)

Variáveis

Ordinais (tem que estar em ordem)

Nominais (tem que estar em nome)

1º, 2º, 3º patentes

Cor, Religião, Sexo

Discreta (enumeráveis – obtida por meio de contagem)

Quantitativas (quantidade) Contínua (é obtida por meio de medição. Variável mensurável)

Ex.: Altura de uma pessoa 1,72

Distribuição de frequência

Ex.: Dados a amostra de 60 medidas de uma dada região geográfica:

10 7 8 5 4 3 2 9

3 15 1 13 14 4 3 6

10 11 12 13 14 2 15 5

2 1 3 8 10 1 13 14

5 9 5 3 2 3 3 4

8 6 7 8 9 1 12 13

Fonte: hipotética

9

6

4

15

4

14

6

8

10

16

4

16

Dados brutos – São os dados colhidos e dispostos em colunas e linhas (dados desordenados).

Rol – organização numérica dos dados brutos (em ordem crescente ou decrescente).

Amplitude total – variação entre o maior e o menor valor observado. At = S – I

At = 16 – 1 = 15

Amplitude de classe (h)

De forma prática encontramos o valor da amplitude de classe aplicando as fórmulas

At At e

5 20

0,75 ≤ h ≤ 3

Exemplo: 15 / 5 = 3 e 15 / 20 = 0,75

h=3

Título

Classe

1 |— 4

4 |— 7

7 |— 10

10 |— 13

13 |—| 16

fi

15

14

11

7

13

60

Font: hipotética

Elementos de uma distribuição de frequência

fi – frequência absoluta ou frequência simples absoluta.

3

Page 4: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

Limites de classe (1 |— 4)

LI – limite inferior LS – limite superior

Ponto médio (xi) - xi LI LS h ou xi LI

2 2

Frequência relativa (ou probabilidade)

fr

fi

fi 100%

fac – Frequência acumulada crescente (menor do que ou abaixo de LS)

fad - Frequência acumulada decrescente (maior do que ou acima de LI)

Classe

1 |— 4

4 |— 7

7 |— 10

10 |— 13

13 |—| 16

fi

15

14

11

7

13

60

xi fac fad fr

Exercício

Uma auditoria em uma grande empresa observou o valor de 50 notas fiscais emitidos durante

um mês. Preencha os dados que faltam na tabela.

Valor da nota Nº de notas xi fac fad

10 3 R$

7 12

12 17

17 22

22 27

27 32

32 37

37 42

Fonte:hip

2

5

13

10

9

6

5

Σ 50

4

Page 5: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

Pede-se:

a) A frequência relativa da 3ª classe.

b) A classe de menor frequência.

c) O intervalo de maior frequência.

d) Os números de notas fiscais cujo valor é inferior a R$ 24.500,00.

e) A porcentagem de notas fiscais cujo valor está compreendido entre R$ 12.000 e R$

25.000,00

Medidas de posição

Média ( x )

Dados não agrupados

x x

n

Soma de todos os valores amostrais

Número de valores amostrais

Exemplo: Dada a amostra A = {2, 4, 5, 8, 2, 7}, calcule a média.

x 2 4 5 8 2 7 28

4,67 6 6

Exemplo prático:

Sabe-se que o chumbo tem alguns efeitos adversos à saúde. Abaixo estão listadas as medidas

das quantidades de chumbo (em microgramas por metro cúbico, ou µg/m3. As medidas

mostradas abaixo foram registradas no local do Edifício 5 do World Trade Center, em dias

diferentes, logo após a destruição causadas pelos ataques terroristas de 11 de setembro de

2011. Ache a média para essa amostra de medidas de níveis de chumbo no ar.

5,40 1,10 0,42 0,73 0,48 1,10

x x 5,40 1,10 0,42 0,73 0,48 1,10 9,23 1,538

n 6 6

O nível médio de chumbo é 1,538 µg/m3. Independente do valor da média, é também de se

notar que o conjunto de dados contém um valor (5,40) que está bem afastado dos demais

(outlier). Nesse caso, o nível de chumbo de 5,40 µg/m3 foi medido um dia após o

desmoronamento do World Trade Center, e havia níveis elevados de poeira e fumaça.

Também, alguma quantidade de chumbo poderia ser proveniente do grande número de

veículos que se dirigiam para o local. Esses fatores fornecem uma explicação razoável para um

tal valor extremo.

Dados agrupados

fixi x

fi =

477 7,95 60

5

Page 6: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

Classe

1 |— 4

4 |— 7

7 |— 10

10 |— 13

13 |—| 16

fi

15

14

11

7

13

xi

2,5

5,5

8,5

11,5

14,5

fixi

37,5

77

93,5

80,5

188,5

60 477,0

Mediana(Md)

Uma desvantagem da média é que ela é sensível a qualquer valor, de modo que um

valor excepcional pode afetar dramasticamente a média. A mediana supera grandemente essa

desvantagem. A mediana pode ser considerada como um "valor do meio", no sentido de que

cerca da metade dos valores no conjunto dos dados está abaixo da mediana e metade está

acima dela. A definição que se segue é mais precisa.

A mediana de um conjunto de dados é a medida de centro que é o valor do meio quando os

dados originais estão arranjados em ordem crescente (ou decrescente) de magnitude.

De forma simples podemos pensar que a mediana é o valor da abscissa que será 50% das

observações.

Dados não agrupados

Encontre a mediana para a amostra.

5,40 1,10 0,42 0,73 0,48 1,10

1º) Ordene os valores

0,42 0,48 0,73 1,10 1,10 5,40

Como o numero de valores é um número par (6), a mediana é encontrada pelo cálculo da

média dos dois valores do meio (0,73 e 1,10).

Md 0,73 1,10

0,915 2

Dados agrupados

15 14 11 7 13

Posição =

16

30

| --------- | ------ | ------ | ------ | ------ | n 60 30 2 2

1

30

4 7

10 13

Md

6

Page 7: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

10 7 Md 7

11 1 3 77

Md 7,27 11

N fac ant .h

2 Md LI

fi md

n / 2 – fac ant

Dados não agrupados

A = {2, 4, 5, 8, 2, 7}

2, 2, 4 | 5, 7, 8

xi n xi n

Md 2 2 1

2 4 5

Md 4,5 2

B = {2, 5, 3, 15, 8}

2, 3, 5, 8, 15 Md = 5

Obs.: Se os dados não estiverem ordenados é necessário que ordene os dados antes de

calcular a mediana.

Moda – É o valor que ocorre com maior frequência ou o valor da abscissa de ordenada máxima

(Mo).

Dados não agrupados

A = {2, 4, 5, 8, 2, 7}. Mo = 2

B={5, 1, 3, 2, 9} Amodal (moda não existe)

Dados agrupados

Mo Li 1

h 1 2

1 fi Mo fiant

2 fi Mo fi post

Tomando como exemplo a distribuição de frequência da página 6, calcule a moda.

7

Page 8: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

Atividades para fixação

1) Para cada série, calcule a média, a mediana e a moda.

a) 2, 4, 6, 8

b) 2, 2, 8, 6, 6, 5, 4, 3, 2, 2, 3, 3, 6, 3, 5, 5, 4, 4, 4, 4

c) Títulos:

classes fi

20 25 6

25 30 10

30 35 18

35 40 9

40 45 7

Σ 50

2) Foram feitas oito medidas do diâmetro interno dos anéis de pistão forjados de um motor de

uma automóvel. Os dados (em mm) são: 74,001; 74,003; 74,015; 74,000; 74,005; 74,002;

74,005 e 74,004. Calcule a média e a mediana da amostra.

3) Como determinar o maior valor que um determinado número pode assumir, sabendo que

ele pertence a um grupo com cinco números inteiros distintos, estritamente positivos, cuja

média é 16?

4) Um fabricante de molas está interessado em implementar um sistema de controle da

qualidade para monitorar seu processo de produção. Como parte desse sistema de qualidade,

foi decidido registrar o número de molas fora de conformidade, em cada batelada de

produção, com um tamanho igual a 50. Durante 40 dias de produção, 40 bateladas de dados

foram coletadas sendo reportadas abaixo.

9 12 6 9 7 14 12 4 6 7

8 5 9 7 8 11 3 6 7 7

11 4 4 8 7 5 6 4 5 8

19 19 18 12 11 17 15 17 13 13

a) Construa uma tabela de distribuição de frequência, com as colunas fac, fad, fr.

b) Encontre a média, mediana e moda da amostra.

5) Observe a tabela abaixo que representa a distribuição da idade de 50 pessoas, organizada

por faixas de idade: a) Qual a porcentagem de pessoas possuem idade

Idade (anos) Nº de casos inferior a 35 anos?

1 10 l 20 b) Qual a idade média das pessoas?

14 20 l 30 c) Qual a idade que separa 40% do grupo de pessoas?

23 30 l 40

10 40 l 50

2 50 l 60

6) Seja a distribuição salarial apresentada abaixo:

Fábrica X. Número de operários, segundo classes de salários mensais 2010.

Salários Fi

8

Page 9: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

3,0

3,2

3,4

3,6

3,8

4,0

3,2

3,4

3,6

3,8

4,0

4,2

10

18

12

9

8

3 Σ 60

Pede-se

a) uma distribuição de frequência relativa.

b) a classe do salário do 30º operário.

c) quantos operários recebem até R$ 3340,00 (exclusive)?

d) qual a porcentagem daqueles que recebem R$ 3400,00 ou mais?

e) o valor do salário que separa:

1. 50% dos operários.

2. 25% dos operários.

3. 10% dos operários.

f) o valor da média, mediana e da moda.

7) Na série (15, 20, 30, 40, 50) há, abaixo da mediana,

a) 2 valores b) 3 valores c) 3,5 valores d) 4 valores.

8) Complete as informações ausentes na tabela seguinte.

Xi Fi Fr Fac

12 5

16 13

17 32

34 8

45 47

56 3

Soma (∑) 50 100

Fad

9) A tabela abaixo apresenta uma distribuição de frequência das áreas de 400 lotes.

Área (m2) Nº de lotes Com referência a esta tabela, determine: 14 300 l 400 a) a amplitude total; 46 400 l 500 b) o limite superior da 5ª classe; 58 500 l 600 c) o limite inferior da 8ª classe; 76 600 l 700 d) o ponto médio da 7ª classe; 68 700 l 800 e) a amplitude do intervalo da 2ª classe; 62 800 l 900 f) a frequência relativa da 6ª classe; 48 900 l 1000 g) a frequência da 4ª classe; 22 1000 l 1100 h) a frequência acumulada da 5ª classe; 6 1100 l 1200 i) o nº de lotes cuja área não atinge 700 m2;

j) o nº de lotes cuja área atinge e ultrapassa 800 m2;

k) a percentagem dos lotes cuja área não atinge 600 m2;

l) a percentagem dos lotes cuja área seja maior ou igual a 900 m2;

m) a classe do 72º lote;

n) até que classe estão incluídos 60% dos lotes.

9

Page 10: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

Medidas de dispersão

Amplitude total: É a única medida de dispersão que não tem na média o ponto de referência.

Quando os dados não estão agrupados a amplitude total é a diferença entre o maior e

o menor valor observado:

AT = Máximo - Mínimo.

Ex: Para os valores 40, 45, 48, 62 e 70 a amplitude total será: AT = 70 - 40 = 30

Com intervalos de classe a amplitude total é a diferença entre o limite superior da última

classe e o limite inferior da primeira classe. Então:

AT = LS máximo - LI mínimo

Ex:

Classes

4 |------------- 6

6 |------------- 8

8 |------------- 10

6

2

3

fi

AT = 10 - 4 = 6

A amplitude total tem o inconveniente de só levar em conta os dois valores extremos

da série, descuidando do conjunto de valores intermediários. Faz-se uso da amplitude

total quando se quer determinar a amplitude da temperatura em um dia, no controle

de qualidade ou como uma medida de cálculo rápido sem muita exatidão.

- Desvio padrão

O desvio padrão de um conjunto de valores amostrais é uma medida da variação dos valores

em torno da média. É uma espécie de desvio médio dos valores em relação à média.

Desvio médio: é a média aritmética dos módulos dos desvios, tomados em relação à média.

DM

i

N

N xi x

N dados não agrupados.

DM

fi x i 1

i x

dados agrupados. N

10

Page 11: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

Desvio padrão para dados não agrupados

S | x

i x |2

n 1

i

amostral

| x x |2

n população

Desvio padrão para dados agrupados

S f

i | xi x | 2

n 1

| xi x | 2

n

amostral

populacion al f

i

Propriedades

1) Se somarmos ou subtrairmos cada elemento de um conjunto por um número qualquer,

a média será alterada por este valor e o desvio padrão inalterado.

2) Se multiplicarmos ou dividirmos cada elemento da série por um número qualquer, a

média e o desvio padrão serão alterados por este valor.

- Variância ou Variança (S2 ou 2 )

A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é

extremamente importante na inferência estatística e em combinações de amostras. É a razão

entre o somatório dos quadrados dos desvios, tomados em relação a média, e o número deles.

S 2 ( xi x)

n

2

(dados não agrupados) ou S 2 ( xi x)

n

2 fi (dados agrupados)

Obs.: Se amostra n < 30 usa-se no denominador “n – 1”

Coeficiente de variação (dispersão relativa) ou coeficiente de Pearson

CV

CV

S 100% x

x 100%

CV > 30% - dispersos

CV < 30% - homogêneos

Desvio quartílico

Q Q3 Q1

2

11

Page 12: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

Quartil

25% 25% 25% 25%

nM fac ant h

4 Qn LI

fiQn

Desvio percentílico

posição = nN

4

P90 P 10

Percentil

nN fac ant h

100 Pn LI

fi Dn

Exemplo:

posição = nN

100

Para a distribuição de dados agrupados pede-se:

a) A porcentagem de barras que pertencem ao intervalo x S

b) A variância

c) O coeficiente de variação

Limites (kg)

29 |— 36

36 |— 43

43 |— 50

50 |— 57

57 |— 64

64 |— 71

fi

6

9

12

33

17

3

80

Xi fixi fi | xi - x |2

Exercícios

1) Calcule para a série:

Salário dos Vendedores

Classe Fi Xi

12

Page 13: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

400 |— 500

500 |— 600

600 |— 700

700 |— 800

800 |— 900

5

10

15

10

6

450

550

650

750

850

a) A média e o desvio padrão dos salários. b) O coeficiente de variação. Classifique os dados em dispersos ou homogêneos.

2) Determinar o desvio padrão da amostra

3) Numa empresa, o salário médio dos homens é de R$ 4000,00 com desvio padrão de R$ 1500,00 e o das mulheres é em média de R$ 3000,00, com desvio padrão de R$ 1200,00. “Com essas informações, conclui-se que o salário das mulheres apresentam menor dispersão relativa. É verdadeira essa informação? Justifique.

4) Um pesquisador interessado na eficiência de grupos de dieta pesou 5 clientes após várias

semanas no programa. Os valores da perda de peso ( em libras) foram: 13 12 6 9 10. Pede-

se calcular amplitude total, o desvio médio, a variância e o desvio padrão para esses dados..

5) Para as séries apresentadas a seguir, responda, com base na medida de dispersão mais conveniente. Série A: Série B: Série C:

a) A série mais homogênea? b) A série mais dispersa?

6) Para uma série que apresenta coeficiente de variação e variância, respectivamente 25% e 4 unidades, qual será a média?

7) Calcule a variância, o desvio padrão, e o coeficiente de variação para a distribuição de valores de 54 notas fiscais emitidas na mesma data, selecionadas em uma loja de departamentos.

Consumo por 0 50 nota R$

N° de notas 10

50 100

28

150

12

200

2

250

1

250 300

1

9) Em Recife a temperatura média do ano é de TREC 27 C

T Rio de Janeiro a temperatura média do ano é de RIO Qual cidade apresenta a temperatura mais homogênea?

24 C

e o desvio padrão é 8 C . No

6 C . e o desvio padrão é

13

Page 14: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

Assimetria e Curtose

Assimetria - Mede o quanto a série está enviesada em torno da média.

Simétrica

x Md Mo

Assimétrica positiva

Mo Md x

Assimétrica negativa

x Md Mo

Índice de assimetria ou grau de assimetria

3( x Md )

S

x Mo IA

S

IA

Curtose – Mede o grau de achatamento da curva

K Q3 Q1

2( P90 P10 )

Se K = 0,263 temos uma curva normal chamada mesocúrtica

Se K < 0,263 a curva apresenta mais fechada que a normal – leptocúrtica

Se K > 0,263 a curva é mais achatada – platicúrtica

14

Page 15: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

Exemplo:

1) Considere os seguintes resultados de 3 distribuições de freqüência:

Distribuição

A

B

C

x

12

12,9

11,1

Md

12

13,5

10,5

Mo

12

16

8

Q1

814

63,7

28,8

Q3

935

80,3

45,6

P10

772

55

20,5

P90

1012

86,6

49,8

S

4,42

4,2

4,2

Determine:

a) O tipo de assimetria de cada uma delas

x a Md a Mo =>simétrica

x b Md Mo => assimétrica negativa

Mo Md x c => assimétrica positiva

b) O índice de assimetria de cada uma

3(12 12) 0

4,42

3(12,9 13,5) IAB 0,43

4,20

3(11,1 10,5) IAC 0,43

4,20

IAA

c) Os respectivos graus de curtose e classifique-os

935 814 0,252 leptocúrti ca

2(1012 772)

80,3 63,7 KB 0,263 mesocúrtica

2(86,6 55)

45,6 28,8 KC 0,287 platicúrti ca

2(49,8 20,5)

KA

Exercício

1) Considerando a distribuição de freqüência relativa aos pesos de 100 operários de uma

fábrica. (Dados: Q1 = 66, Q3 = 82,5, P10 = 58 e P90 = 90)

Pesos (Kg)

50 |— 58

58 |— 66

66 |— 74

74 |— 82

82 |— 90

90 |— 98

fi

10

15

25

24

16

10

100

Xi Determine: a) O grau de assimetria b) O grau de curtose

15

Page 16: APOSTILA de ESTATISTICA - Medidas de Posicao e Dispersao - Faculdade Pitagoras - Robson01_20130819111041

2) Dada distribuição, pede-se:

Estaturas (cm)

150 |— 154

154 |— 158

158 |— 162

162 |— 166

166 |— 170

170 |— 174

fi

4

9

11

8

5

2

39

a) a percentagem de alunos no intervalo x S .

b) o desvio quartílico. c) o desvio percentílico. d) o índice de assimetria (usando a moda). e) o grau de curtose. f) Classificação da distribuição.

Bibliografia:

LARSON, Ron; FARBER, Betsy, Estatística aplicada. São Paulo: Pearson Prentice Hall, 2010. 4 ed.

TRIOLA, Mario F. Introdução à Estatística. Rio de Janeiro: LTC, 2008.

MONTGOMERY, Douglas C. Estatística aplicada e probabilidade para engenheiros. Rio de

Janeiro: LTC, 2003.

FONSECA, J. Siman; MARTINS, G. Andrade Curso de Estatística. São Paulo: Atlas.

16