TADI – Tratamento e Análise de Dados/Informações Prof ... · médio representando cada faixa,...

28
Aula - Estatística Descritiva Medidas Resumo Medidas de tendência central: Média, Mediana e Moda TADI Tratamento e Análise de Dados/Informações Prof. Camilo Rodrigues Neto Hieronymus Bosch (1450 - 1516)

Transcript of TADI – Tratamento e Análise de Dados/Informações Prof ... · médio representando cada faixa,...

Aula - Estatística Descritiva

• Medidas Resumo

• Medidas de tendência central:

Média, Mediana e Moda

TADI – Tratamento e Análise de Dados/Informações

Prof. Camilo Rodrigues Neto

Hieronymus Bosch (1450 - 1516)

Estatística descritiva

• A estatística descritiva é um ramo da estatística que aplica várias técnicas para descrever e sumariar um conjunto de dados

• As técnicas usadas costumam classificar-se como:

• Gráficos descritivos: São usados vários tipos de gráficos para sumariar os dados. Por exemplo: Histogramas.

• Descrição Tabular: Na qual se usam tabelas para sumarizar os dados. Por exemplo tabelas de Freqüências.

• Descrição Paramétrica: Na qual estimamos os valores de certos parâmetros, os quais assumimos que completam a descrição do conjunto dos dados. Por exemplo: Média.

0

1

2

3

4

Fre

qu

ên

cia

salário

Salário de indivíduos com curso superior

Quanto ganha quem tem curso superior ?

Entrevistamos 15 pessoas que responderam (em milhares de R$/mês): 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6

[0,1]

(1,2]

(2,3]

(3,4]

(4,5]

(5,6]

(6,7]

(7,8]

(8,9]

(9,10]

(10,11]

1 0 0 1 0 2 3 3 4 0 1 n

(10,11] (9,10] (8,9] (7,8] (6,7] (5,6] (4,5] (3,4] (2,3] (1,2] [0,1] x

0

1

2

3

4

5

6

Fre

qu

ên

cia

salário

Salário de indivíduos com curso superior

Qual extremo incluir? ... [5,6) ou (5,6]

Utilizando as mesmas 15 pessoas (em milhares de R$/mês): 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6

[0,1)

[1,2)

[2,3)

[3,4)

[4,5)

[5,6)

[6,7)

[7,8)

[8,9)

[9,10)

[10,11]

1 0 0 1 1 4 0 6 1 0 1 n

[10,11] [9,10) [8,9) [7,8) [6,7) [5,6) [4,5) [3,4) [2,3) [1,2) [0,1) x

Qual extremo incluir? ... [5,6) ou (5,6]

0

1

2

3

4

5

6

Fre

qu

ên

cia

salário

Salário de indivíduos com curso superior

[0,1)

[1,2)

[2,3)

[3,4)

[4,5)

[5,6)

[6,7)

[7,8)

[8,9)

[9,10) [10,11]

0

1

2

3

4

Fre

qu

ênci

a

salário

Salário de indivíduos com curso superior

[0,1]

(1,2]

(2,3]

(3,4]

(4,5]

(5,6]

(6,7]

(7,8]

(8,9]

(9,10]

(10,11]

(5,6]

[5,6)

Como resumir esta informação? Média aritmética

45,415

7,66

15

67,43,2353,20,433,535,5552,511

x

Média aritmética, ou simplesmente média:

• somar todos os valores e dividir pelo número de observações;

• é comumente denotada por uma barra sobre a variável.

A forma geral para a média é:

n

xxxx n

21

n

x

x

n

i

i 1

ou

0

1

2

3

4

Fre

qu

ên

cia

salário

Salário de indivíduos com curso superior

O que a média representa ?

Representa quanto cada um receberia se o total de salários fosse dividido identicamente.

Média = 4,45

[0,1]

(1,2]

(2,3]

(3,4]

(4,5]

(5,6]

(6,7]

(7,8]

(8,9]

(9,10]

(10,11]

0

1

2

3

4

Fre

qu

ên

cia

salário

Salário de indivíduos com curso superior

Uma analogia física para a média: o ponto onde o histograma se equilibra, ou seja, o seu centro de massa.

[0,1]

(1,2]

(2,3]

(3,4]

(4,5]

(5,6]

(6,7]

(7,8]

(8,9]

(9,10]

(10,11]

4,45

0

1

2

3

4

Fre

qu

ên

cia

salário

Salário de indivíduos com curso superior

E se removermos o outlier da amostra,

o que acontece com a média ?

Outlier

Definindo outlier

[0,1]

(1,2]

(2,3]

(3,4]

(4,5]

(5,6]

(6,7]

(7,8]

(8,9]

(9,10]

(10,11]

4,45

0

1

2

3

4

Fre

qu

ên

cia

salário

Salário de indivíduos com curso superior

Eliminando o outlier

Calculando a média novamente:

E se entrevistássemos um felizardo que ganhe R$200 mil/mês ? O que ocorre com a média ?

98,314

7,55

14

67,43,2353,20,433,535,5552,5

x

[0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11]

3,98

4,45

Efeito do outlier com o felizardo que ganha R$200 mil/mês

Calculando a média novamente:

CUIDADO: A média é uma medida sensível a valores extremos.

0

2

4

6

8

2

16

30

44

58

72

86

100

114

128

142

156

170

184

198

Salários

Fre

ên

cia

05,1715

7,66

15

67,43,2353,20,433,535,5552,5200

x

17,05 4,45

Mediana: minimizando o efeito do outlier

Dados ordenados com o novo outlier:

0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 200

A mediana Md será: Md = 3,5

Note que a alteração de 11 para 200 em um dos salários não alterou em nada a mediana.

A mediana é bem menos sensível a valores grandes do que a média. A mediana é dita uma medida de posição resistente devido a essa característica.

Por outro lado, dependendo da informação que se busca, esta característica pode não ser desejável.

Eliminando o outlier 11

Dados ordenados sem o outlier:

0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4

A mediana Md será: Md = (3,2+3,5)/2 = 3,35

Se temos um número par de dados, toma-se a média!

Moda: qual seria o salário mais freqüente?

É mais fácil começar com dados ordenados:

0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11

Alternativamente, para achar a moda montamos uma tabela de freqüências e procuramos pelo salário ou faixa com maior freqüência:

A moda está no intervalo [3,4), escolhemos o meio do intervalo como indicador: MODA = 3,5.

1 0 0 1 1 4 0 6 1 0 1 n

[10,11] [9,10) [8,9) [7,8) [6,7) [5,6) [4,5) [3,4) [2,3) [1,2) [0,1) x

1 0 0 1 0 2 3 3 4 0 1 n

(10,11] (9,10] (8,9] (7,8] (6,7] (5,6] (4,5] (3,4] (2,3] (1,2] [0,1] x

Modas = 3 e 5

(bimodal)

A moda está no intervalo (2,3], escolhemos o meio do intervalo como indicador: MODA = 2,5.

Histogramas e distribuições

Distribuição simétrica

Distribuição assimétrica

Distribuição com caudas

longas

Exercícios

1. Como deve ser a distribuição para que a média e a mediana sejam idênticas? Desenhe o histograma.

2. Como deve ser o histograma para que a mediana seja

igual a moda mas a média seja maior que a mediana ?

3. Como deve ser o histograma para que a moda seja

maior que a mediana e a mediana seja maior que a

média ?

Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 31

moda

mediana

média 29/06/2014

Exercício 1: média e mediana idênticas

Exercício 2: mediana igual a moda

mas a média maior que a mediana

moda

mediana

média

Exercício 3: moda maior que a mediana e a mediana maior que a média

moda

média

mediana

7 observações 7 observações

Exercício 4

Você está procurando emprego para o próximo ano. As empresas A e B são totalmente equivalentes a menos de suas políticas de remuneração. As características de remuneração de cada uma das empresas são resumidas na tabela a seguir:

1900 1500 Moda

1900 1700 Mediana

2000 2500 Média

B A Empresa

Qual das duas empresas você escolheria ? Justifique

Exercício 4 depende da qualificação

A empresa A tem metade dos funcionários ganhando 1700, sendo o valor mais comum 1500. Como a média é 2500, há alguns poucos funcionários ganhando muito.

A empresa B tem as três medidas muito próximas a 1900, indicando uma política salarial mais homogênea.

Se você é altamente qualificado, as chances são de ganhar mais na empresa A.

Se você tem qualificação igual ou inferior à média, a melhor escolha é a empresa B.

1900 1500 Moda

1900 1700 Mediana

2000 2500 Média

B A Empresa

Qual foi a mensagem no texto de Gould que vocês leram? Stephen Jay Gold, A mediana não é a mensagem, in Viva o brontossauro, Companhia das Letras, 1992

Mediana = 8 meses

Exercício 5

Quais medidas de posição são mais adequadas nos seguintes casos ? Justifique.

• Estão disponíveis dados mensais sobre a incidência de

envenenamento por picada de cobra. Deseja-se planejar a compra mensal de antídoto.

• O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação.

• Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta a informação sobre a duração de 100 de suas baterias.

Exercício 5 não há uma resposta única

• Estão disponíveis dados mensais sobre a incidência de envenenamento por picada de cobra. Deseja-se planejar a compra mensal de antídoto.

Comprando o valor mediano deve ser suficiente para 50%

dos meses. Se há meses com grande número de acidentes por questões

sazonais como colheitas ou enchentes a média será afetada. Deve-se estar atento se a variabilidade dos dados é

grande, criando um estoque de emergência que atenda vários centros de saúde.

Exercício 5 não há uma resposta única

• O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação.

Podemos decidir do ponto de vista do usuário ou da

empresa. O número médio diário de usuários pode ser dividido pelo

número de assentos (para que haja mais espaço) ou pela lotação dos ônibus (para ter menos carros em circulação).

Exercício 5 não há uma resposta única

• Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta a informação sobre a duração de 100 de suas baterias.

A duração média é talvez a melhor medida para usar. Mas se a moda (o valor mais provável) for alto, pode-se

também utilizá-la como propaganda.

Exercício 6

Vinte e cinco residências de um bairro foram sorteadas e visitadas por um entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados foram os seguintes:

2,2,2,3,1,2,1,1,1,1,0,1,2,2,2,2,3,1,1,3,1,2,1,0,2

Organize os dados em uma tabela de freqüência e

determine as diversas medidas de posição.

Exercício 7

Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em kg) foram os seguintes:

1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5; 2,2

a) Utilizando os dados brutos acima, determine média, moda e mediana.

b) Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de 1,5.

c) Calcule a partir da tabela de freqüência e com o ponto médio representando cada faixa, a média, a moda e a mediana. Comente as diferenças em relação ao item a.

d) Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente (a) ou (c)?