TADI – Tratamento e Análise de Dados/Informações Prof ... · médio representando cada faixa,...
Transcript of TADI – Tratamento e Análise de Dados/Informações Prof ... · médio representando cada faixa,...
Aula - Estatística Descritiva
• Medidas Resumo
• Medidas de tendência central:
Média, Mediana e Moda
TADI – Tratamento e Análise de Dados/Informações
Prof. Camilo Rodrigues Neto
Hieronymus Bosch (1450 - 1516)
Estatística descritiva
• A estatística descritiva é um ramo da estatística que aplica várias técnicas para descrever e sumariar um conjunto de dados
• As técnicas usadas costumam classificar-se como:
• Gráficos descritivos: São usados vários tipos de gráficos para sumariar os dados. Por exemplo: Histogramas.
• Descrição Tabular: Na qual se usam tabelas para sumarizar os dados. Por exemplo tabelas de Freqüências.
• Descrição Paramétrica: Na qual estimamos os valores de certos parâmetros, os quais assumimos que completam a descrição do conjunto dos dados. Por exemplo: Média.
0
1
2
3
4
Fre
qu
ên
cia
salário
Salário de indivíduos com curso superior
Quanto ganha quem tem curso superior ?
Entrevistamos 15 pessoas que responderam (em milhares de R$/mês): 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6
[0,1]
(1,2]
(2,3]
(3,4]
(4,5]
(5,6]
(6,7]
(7,8]
(8,9]
(9,10]
(10,11]
1 0 0 1 0 2 3 3 4 0 1 n
(10,11] (9,10] (8,9] (7,8] (6,7] (5,6] (4,5] (3,4] (2,3] (1,2] [0,1] x
0
1
2
3
4
5
6
Fre
qu
ên
cia
salário
Salário de indivíduos com curso superior
Qual extremo incluir? ... [5,6) ou (5,6]
Utilizando as mesmas 15 pessoas (em milhares de R$/mês): 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6
[0,1)
[1,2)
[2,3)
[3,4)
[4,5)
[5,6)
[6,7)
[7,8)
[8,9)
[9,10)
[10,11]
1 0 0 1 1 4 0 6 1 0 1 n
[10,11] [9,10) [8,9) [7,8) [6,7) [5,6) [4,5) [3,4) [2,3) [1,2) [0,1) x
Qual extremo incluir? ... [5,6) ou (5,6]
0
1
2
3
4
5
6
Fre
qu
ên
cia
salário
Salário de indivíduos com curso superior
[0,1)
[1,2)
[2,3)
[3,4)
[4,5)
[5,6)
[6,7)
[7,8)
[8,9)
[9,10) [10,11]
0
1
2
3
4
Fre
qu
ênci
a
salário
Salário de indivíduos com curso superior
[0,1]
(1,2]
(2,3]
(3,4]
(4,5]
(5,6]
(6,7]
(7,8]
(8,9]
(9,10]
(10,11]
(5,6]
[5,6)
Como resumir esta informação? Média aritmética
45,415
7,66
15
67,43,2353,20,433,535,5552,511
x
Média aritmética, ou simplesmente média:
• somar todos os valores e dividir pelo número de observações;
• é comumente denotada por uma barra sobre a variável.
A forma geral para a média é:
n
xxxx n
21
n
x
x
n
i
i 1
ou
0
1
2
3
4
Fre
qu
ên
cia
salário
Salário de indivíduos com curso superior
O que a média representa ?
Representa quanto cada um receberia se o total de salários fosse dividido identicamente.
Média = 4,45
[0,1]
(1,2]
(2,3]
(3,4]
(4,5]
(5,6]
(6,7]
(7,8]
(8,9]
(9,10]
(10,11]
0
1
2
3
4
Fre
qu
ên
cia
salário
Salário de indivíduos com curso superior
Uma analogia física para a média: o ponto onde o histograma se equilibra, ou seja, o seu centro de massa.
[0,1]
(1,2]
(2,3]
(3,4]
(4,5]
(5,6]
(6,7]
(7,8]
(8,9]
(9,10]
(10,11]
4,45
0
1
2
3
4
Fre
qu
ên
cia
salário
Salário de indivíduos com curso superior
E se removermos o outlier da amostra,
o que acontece com a média ?
Outlier
Definindo outlier
[0,1]
(1,2]
(2,3]
(3,4]
(4,5]
(5,6]
(6,7]
(7,8]
(8,9]
(9,10]
(10,11]
4,45
0
1
2
3
4
Fre
qu
ên
cia
salário
Salário de indivíduos com curso superior
Eliminando o outlier
Calculando a média novamente:
E se entrevistássemos um felizardo que ganhe R$200 mil/mês ? O que ocorre com a média ?
98,314
7,55
14
67,43,2353,20,433,535,5552,5
x
[0,1] (1,2] (2,3] (3,4] (4,5] (5,6] (6,7] (7,8] (8,9] (9,10] (10,11]
3,98
4,45
Efeito do outlier com o felizardo que ganha R$200 mil/mês
Calculando a média novamente:
CUIDADO: A média é uma medida sensível a valores extremos.
0
2
4
6
8
2
16
30
44
58
72
86
100
114
128
142
156
170
184
198
Salários
Fre
qü
ên
cia
05,1715
7,66
15
67,43,2353,20,433,535,5552,5200
x
17,05 4,45
Mediana: minimizando o efeito do outlier
Dados ordenados com o novo outlier:
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 200
A mediana Md será: Md = 3,5
Note que a alteração de 11 para 200 em um dos salários não alterou em nada a mediana.
A mediana é bem menos sensível a valores grandes do que a média. A mediana é dita uma medida de posição resistente devido a essa característica.
Por outro lado, dependendo da informação que se busca, esta característica pode não ser desejável.
Eliminando o outlier 11
Dados ordenados sem o outlier:
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4
A mediana Md será: Md = (3,2+3,5)/2 = 3,35
Se temos um número par de dados, toma-se a média!
Moda: qual seria o salário mais freqüente?
É mais fácil começar com dados ordenados:
0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11
Alternativamente, para achar a moda montamos uma tabela de freqüências e procuramos pelo salário ou faixa com maior freqüência:
A moda está no intervalo [3,4), escolhemos o meio do intervalo como indicador: MODA = 3,5.
1 0 0 1 1 4 0 6 1 0 1 n
[10,11] [9,10) [8,9) [7,8) [6,7) [5,6) [4,5) [3,4) [2,3) [1,2) [0,1) x
1 0 0 1 0 2 3 3 4 0 1 n
(10,11] (9,10] (8,9] (7,8] (6,7] (5,6] (4,5] (3,4] (2,3] (1,2] [0,1] x
Modas = 3 e 5
(bimodal)
A moda está no intervalo (2,3], escolhemos o meio do intervalo como indicador: MODA = 2,5.
Histogramas e distribuições
Distribuição simétrica
Distribuição assimétrica
Distribuição com caudas
longas
Exercícios
1. Como deve ser a distribuição para que a média e a mediana sejam idênticas? Desenhe o histograma.
2. Como deve ser o histograma para que a mediana seja
igual a moda mas a média seja maior que a mediana ?
3. Como deve ser o histograma para que a moda seja
maior que a mediana e a mediana seja maior que a
média ?
Aula 10 – Estatística descritiva Prof. Camilo Rodrigues Neto 31
moda
mediana
média 29/06/2014
Exercício 1: média e mediana idênticas
Exercício 3: moda maior que a mediana e a mediana maior que a média
moda
média
mediana
7 observações 7 observações
Exercício 4
Você está procurando emprego para o próximo ano. As empresas A e B são totalmente equivalentes a menos de suas políticas de remuneração. As características de remuneração de cada uma das empresas são resumidas na tabela a seguir:
1900 1500 Moda
1900 1700 Mediana
2000 2500 Média
B A Empresa
Qual das duas empresas você escolheria ? Justifique
Exercício 4 depende da qualificação
A empresa A tem metade dos funcionários ganhando 1700, sendo o valor mais comum 1500. Como a média é 2500, há alguns poucos funcionários ganhando muito.
A empresa B tem as três medidas muito próximas a 1900, indicando uma política salarial mais homogênea.
Se você é altamente qualificado, as chances são de ganhar mais na empresa A.
Se você tem qualificação igual ou inferior à média, a melhor escolha é a empresa B.
1900 1500 Moda
1900 1700 Mediana
2000 2500 Média
B A Empresa
Qual foi a mensagem no texto de Gould que vocês leram? Stephen Jay Gold, A mediana não é a mensagem, in Viva o brontossauro, Companhia das Letras, 1992
Mediana = 8 meses
Exercício 5
Quais medidas de posição são mais adequadas nos seguintes casos ? Justifique.
• Estão disponíveis dados mensais sobre a incidência de
envenenamento por picada de cobra. Deseja-se planejar a compra mensal de antídoto.
• O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação.
• Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta a informação sobre a duração de 100 de suas baterias.
Exercício 5 não há uma resposta única
• Estão disponíveis dados mensais sobre a incidência de envenenamento por picada de cobra. Deseja-se planejar a compra mensal de antídoto.
Comprando o valor mediano deve ser suficiente para 50%
dos meses. Se há meses com grande número de acidentes por questões
sazonais como colheitas ou enchentes a média será afetada. Deve-se estar atento se a variabilidade dos dados é
grande, criando um estoque de emergência que atenda vários centros de saúde.
Exercício 5 não há uma resposta única
• O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação.
Podemos decidir do ponto de vista do usuário ou da
empresa. O número médio diário de usuários pode ser dividido pelo
número de assentos (para que haja mais espaço) ou pela lotação dos ônibus (para ter menos carros em circulação).
Exercício 5 não há uma resposta única
• Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta a informação sobre a duração de 100 de suas baterias.
A duração média é talvez a melhor medida para usar. Mas se a moda (o valor mais provável) for alto, pode-se
também utilizá-la como propaganda.
Exercício 6
Vinte e cinco residências de um bairro foram sorteadas e visitadas por um entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados foram os seguintes:
2,2,2,3,1,2,1,1,1,1,0,1,2,2,2,2,3,1,1,3,1,2,1,0,2
Organize os dados em uma tabela de freqüência e
determine as diversas medidas de posição.
Exercício 7
Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em kg) foram os seguintes:
1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5; 2,2
a) Utilizando os dados brutos acima, determine média, moda e mediana.
b) Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de 1,5.
c) Calcule a partir da tabela de freqüência e com o ponto médio representando cada faixa, a média, a moda e a mediana. Comente as diferenças em relação ao item a.
d) Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente (a) ou (c)?