Post on 18-Oct-2020
Introdução à Estatística
Departamento de Estatística
Organização de Dados
� Como tratar as informações coletadas (numéricas ou não) a fim de extrair informações a respeito de uma ou mais características de interesse?
Organização de Dados – Exemplo 1� Suponha, por exemplo, que um questionário foi aplicado aos alunos do primeiro ano
de uma escola fornecendo as seguintes informações:� Id: identificação do aluno
� Turma: turma a que o aluno foi alocado (A ou B)
� Sexo: F se feminino, M se masculino
� Idade: idade em anos completos
� Alt: altura em metros
� Peso: peso em quilogramas
� Filhos: número de filhos na família
� Fuma: hábito de fumas, sim ou não
� Toler: tolerância ao cigarro (I – indiferente; P – incomoda pouco; M – incomoda muito)
� Exerc: horas de atividade física, por semana
� Cine: número de vezes que vai ao cinema por semana
� OpCine: opinição a respeito das salas de cinema na cidade (B – regular a boa; M – muito boa)
� TV: horas gastas assistindo TV, por semana
� OpTV: opinião a respeito da qualidade da programação na TV (R – ruim; M – média; B –boa; e N – não sabe)
Informações de Questionário Infantil –
dados brutos – Tabela 1 – Exemplo 1Id Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine OpCne TV OpTV1 A F 17 1,6 50,5 2 NÃO P 0 1 B 16 R2 A F 18 1,69 55 1 NÃO M 0 1 B 7 R3 A M 18 1,85 72,8 2 NÃO P 5 2 M 15 R4 A M 25 1,85 80,9 2 NÃO P 5 2 B 20 R5 A F 19 1,58 55 1 NÃO M 2 2 B 5 R6 A M 19 1,76 60 3 NÃO M 2 1 B 2 R7 A F 20 1,6 58 1 NÃO P 3 1 B 7 R8 A F 18 1,64 47 1 SIM I 2 2 M 10 R9 A F 18 1,62 57,8 3 NÃO M 3 3 M 12 R
10 A F 17 1,64 58 2 NÃO M 2 2 M 10 R11 A F 18 1,72 70 1 SIM I 10 2 B 8 N12 A F 18 1,66 54 3 NÃO M 0 2 B 0 R13 A F 21 1,7 58 2 NÃO M 6 1 M 30 R14 A M 19 1,78 68,5 1 SIM I 5 1 M 2 N15 A F 18 1,65 63,5 1 NÃO I 4 1 B 10 R16 A F 19 1,63 47,4 3 NÃO P 0 1 B 18 R17 A F 17 1,82 66 1 NÃO P 3 1 B 10 N18 A M 18 1,8 58,2 2 NÃO P 3 4 B 10 R19 A F 20 1,6 54,5 1 NÃO P 3 2 B 5 R20 A F 18 1,68 52,5 3 NÃO M 7 2 B 14 M21 A F 21 1,7 60 2 NÃO P 8 2 B 5 R22 A F 18 1,65 58,5 1 NÃO M 0 3 B 5 R23 A F 18 1,57 49,2 1 SIM I 5 4 B 10 R24 A F 20 1,55 48 1 SIM I 0 1 M 28 R25 A F 20 1,69 51,6 2 NÃO P 8 5 M 4 N26 A F 19 1,54 57 2 NÃO I 6 2 B 5 R27 B F 23 1,62 63 2 NÃO M 8 2 M 5 R28 B F 18 1,62 52 1 NÃO P 1 1 M 10 R29 B F 18 1,57 49 2 NÃO P 3 1 B 12 R30 B F 25 1,65 59 4 NÃO M 1 2 M 2 R31 B F 18 1,61 52 1 NÃO P 2 2 M 6 N32 B M 17 1,71 73 1 NÃO P 1 1 B 20 R33 B F 17 1,65 56 3 NÃO M 2 1 B 14 R34 B F 17 1,67 58 1 NÃO M 4 2 B 10 R35 B M 18 1,73 87 1 NÃO M 7 1 B 25 B36 B F 18 1,6 47 1 NÃO P 5 1 M 14 R37 B M 17 1,7 95 1 NÃO P 10 2 M 12 N38 B M 21 1,85 84 1 SIM I 6 4 B 10 R39 B F 18 1,7 60 1 NÃO P 5 2 B 12 R40 B M 18 1,73 73 1 NÃO M 4 1 B 2 R41 B F 17 1,7 55 1 NÃO I 5 4 B 10 B42 B F 23 1,45 44 2 NÃO M 2 2 B 25 R43 B M 24 1,76 75 2 NÃO I 7 0 M 14 N44 B F 18 1,68 55 1 NÃO P 5 1 B 8 R45 B F 18 1,55 49 1 NÃO M 0 1 M 10 R46 B F 19 1,7 50 7 NÃO M 0 1 B 8 R47 B F 19 1,55 54,5 2 NÃO M 4 3 B 3 R48 B F 18 1,6 50 1 NÃO P 2 1 B 5 R49 B M 17 1,8 71 1 NÃO P 7 0 M 14 R50 B M 18 1,83 86 1 NÃO P 7 0 M 20 B
Dados e Variáveis
� Variável: pode representar qualquer característica que varie de pessoa para pessoa, objeto para objeto, fenômeno para fenômeno...� Altura;
� Cor;
� Velocidade do vento;
� ...
� Dados: valor ou nome resultante da observação de uma variável.� 1,5m;
� Vermelho;
� 25 km/h;
� ...
Variável Qualitativa
Nominal Ordinal
Representa qualidades que não seguem uma ordem
específica
Dados e Variáveis
� Variável Qualitativa:
� identifica uma qualidade não mensurável e é descrita por dados nominais ou ordinais.
Representa qualidades que seguem determinada
ordem
Dados e Variáveis
Variável Qualitativa Ordinal
Variável Dados
Escolaridade Fundamental / Média / Superior
Faixa Etária Criança / Adolescente / ...
Tolerância a dor
Baixa / Razoável / Alta
Estágio da doença
Alzheimer 1,..,4
Variável Qualitativa Nominal
Variável Dados
Sexo Masculino / Feminino
Naturalidade Cidade em que nasceu
Cor da pele Branca / Negra / Parda / ...
Doença Diabetes / Hipertensão
Variável Quantitativa
Discreta Contínua
Forma um conjunto finito ou enumerável de números, resultam,
normalmente, de contagem.
Pertence a um intervalo de números reais e resulta
de mensuração.
Dados e Variáveis
� Variável Quantitativa:
� identifica uma característica mensurável e é descrita por dados discretos ou contínuos.
Dados e Variáveis
Variável Quantitativa Contínua
Variável Dados
Altura m
Peso kg
Temperatura corporal
⁰C
Pressão Arterial mmHg
Variável Quantitativa Discreta
Variável Dados
Número de Filhos 0,1,2,...
Doses de álcool / semana
0,1,2,...
Atividade física / semana
0,1,2,...
Fraturas sofridas 0,1,2,...
Dados e Variáveis – Exercício 1� Classifique as variáveis abaixo:
� Id: identificação do aluno
� Turma: turma a que o aluno foi alocado (A ou B)
� Sexo: F se feminino, M se masculino
� Idade: idade em anos completos
� Alt: altura em metros
� Peso: peso em quilogramas
� Filhos: número de filhos na família
� Fuma: hábito de fumas, sim ou não
� Toler: tolerância ao cigarro (I – indiferente; P – incomoda pouco; M – incomoda muito)
� Exerc: horas de atividade física, por semana
� Cine: número de vezes que vai ao cinema por semana
� OpCine: opinição a respeito das salas de cinema na cidade (B – regular a boa; M – muito boa)
� TV: horas gastas assistindo TV, por semana
� OpTV: opinião a respeito da qualidade da programação na TV (R – ruim; M – média; B – boa; e N – não sabe)
Resumo de dados
� A tabela de dados brutos, apesar de conter muita informação, geralmente não é prática para a visualização dos dados ou para responder às questões de interesse;
� Pode-se utilizar a tabela de dados brutos para montar tabelas de frequências ou gráficos que a resumam e auxiliem na interpretação inicial dos dados.
Frequências Absoluta, Relativa e Relativa
Acumulada
� Absoluta: número de elementos da amostra contendo determinada característica ou pertencentes a determinada faixa de interesse:
� �� representa a frequência da linha �;
� � representa a frequência total.
� Relativa: proporção de elementos, com a mesma qualidade, iguais a determinado valor, ou pertencentes a determinada classe, com relação ao todo (geralmente na forma de porcentagem):
� �� ����
ou �� ���� 100%
� Relativa Acumulada: proporção de elementos apresentando valor igual ou menor ao de determinada classe (somente quando as classes podem ser ordenadas; geralmente na forma de porcentagem).
� � �� � ∑ ������
Distribuição de Frequências –
Variáveis Qualitativas Nominais
Tabela 2: Distribuição de frequências do sexo dos 50 alunos entrevistados. (%)
Sexo Freq.Abs. Freq. Rel. (%)
Feminino 37 74
Masculino 13 26
Total 50 100
Tabela 3: Distribuição de frequências da tolerância ao cigarro dos 50 alunos entrevistados.
Tolerância ao Cigarro Freq.Abs. Freq. Rel. (%)
Indiferente 10 20
Incomoda Pouco 21 42
Incomoda Muito 19 38
Total 50 100
Distribuição de Frequências –
Variáveis Qualitativas Ordinais
Tabela 4: Distribuição de frequências da opinião a respeito das salas de cinema na cidade dos50 alunos entrevistados. (%)
Opinião Freq.Abs. Freq. Rel. (%) Freq. Rel. Ac. (%)
Regular a Boa 32 64 64
Muito Boa 18 36 100
Total 50 100
Tabela 5: Distribuição de frequências do número de vezes que os 50 alunosentrevistados vão ao cinema por semana.
Visitas ao cinema Freq.Abs. Freq. Rel. (%) Freq. Rel. Ac. (%)
0 3 6 6
1 21 42 48
2 18 36 84
3 3 6 90
4 4 8 98
5 1 2 100
Total 50 100
Distribuição de Frequências –
Variáveis Quantitativas Discretas
Tabela 6: Distribuição de frequências do peso dos 50 alunos entrevistados.
Peso (kg) Freq.Abs. Freq. Rel. (%) Freq. Rel. Ac. (%)
[40 ; 50) 8 16 16
[50 ; 60) 22 44 60
[60 ; 70) 8 16 76
[70 ; 80) 6 12 88
[80 ; 90) 5 10 98
[90 ; 100) 1 2 100
Total 50 100
Distribuição de Frequências –
Variáveis Quantitativas Contínuas
Resumo de dados
� A fim de se construir tabelas de frequências variáveis aleatórias contínuas, costuma-se estipular um número mínimo de 5 classes e um número máximo de 10 classes, todas de mesma amplitude;
� Quando uma variável quantitativa discreta inclui uma amplitude grande de dados, costuma-se tratá-la como uma variável aleatória contínua ao construir a sua tabela de frequência.
Tabela 7: Distribuição de frequências das horas gastas, pelos dos 50 alunosentrevistados, assistindoTV.
Horas de TV Freq.Abs. Freq. Rel. (%) Freq. Rel. Ac. (%)
[0 ; 6) 14 28 28
[6 ; 12) 17 34 62
[12 ; 18) 11 22 84
[18 ; 24) 4 8 92
[24 ; 36] 4 8 100
Total 50 100
Distribuição de Frequências –
Variáveis Quantitativas Discretas
Exercício 2 – Parte 1
� Quinze pacientes de uma clínica de ortopedia foram entrevistados quanto ao número de meses previstos de fisioterapia, se haverá (S) ou não (N) sequelas após o tratamento e o grau de complexidade da cirurgia realizada: alto (A), médio (M) ou baixo (B). Os dados são apresentados na tabela abaixo:
� Classifique cada uma das variáveis.
� Para cada variável, construa a tabela de frequência.
Pacientes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Fisioterapia 7 8 5 6 4 5 7 7 6 8 6 5 5 4 5
Sequelas S S N N N S S N N S S N S N N
Cirurgia A M A M M B A M B M B B M M A
Resumo de dados
� Tabelas de frequência proporcionam um meio eficaz de estudo de comportamento de características de interesse;
� Porém, muitas vezes, a informação contida das tabelas pode ser mais facilmente visualizada através de gráficos.
IBGE – Pesquisa Nacional por Amostra de
Domicílios Contínua
Distribuição percentual de jovens brasileiros de 15 a 29 anos de idade, por tipo de atividade na semana de referência, grupos de idade e ano da pesquisa.
0,0
20,0
40,0
60,0
80,0
100,0
Só estuda Estuda eestá
ocupado
Só estáocupado
Não estudae não estáocupado
Jovens de 15 a 17 anos
2012
2013
2014
2015
2016
2017
0,0
10,0
20,0
30,0
40,0
50,0
Só estuda Estuda e estáocupado
Só estáocupado
Não estuda enão estáocupado
Jovens de 18 a 24 anos
2012
2013
2014
2015
2016
2017
0,0
20,0
40,0
60,0
80,0
Só estuda Estuda eestá
ocupado
Só estáocupado
Não estudae não estáocupado
Jovens de 25 a 29 anos
2012
2013
2014
2015
2016
2017
IBGE – Pesquisa Nacional por Amostra de
Domicílios Contínua
OBS: Pessoas com ensinosuperior completo tinhamrendimento médio mensalde R$5.110, cerca de seisvezes acima dostrabalhadores seminstrução (R$ 842).
IBGE – CENSO 2010 – Juiz de Fora
-
5 000
10 000
15 000
20 000
25 000
Distribuição da população por sexo e por idade em Juiz de Fora (MG)
244.024
272.223
Homens
Mulheres
Representação Gráfica
� Gráfico de Pizza (Variáveis Qualitativas Nominais):
� Utiliza um circulo (representando o todo – 100%) e o divide em setores representando as qualidades e suas respectivas frequências relativas.
� Gráficos de Barras (Variáveis Qualitativas Ordinais ou Quantitativas Discretas):
� Permite a visualização da distribuição de frequência em forma de retângulos paralelos uns aos outros.
� Histogramas (Variáveis Quantitativas Contínuas):
� Apresenta a frequência de observações relativas a determinada faixa de valores.
Gráfico de Pizza –
Variáveis Qualitativas Nominais
Tolerância ao Cigarro
Freq.Abs.
Freq. Rel. (%)
Freq. Rel. Ac. (%)
Indiferente 10 20 20
Incomoda Pouco 21 42 62
Incomoda Muito 19 38 100
Total 50 100
Indiferente
Incomoda Pouco
Incomoda Muito
Tolerância ao Cigarro
Gráfico de Barras–
Variáveis Qualitativas Ordinais
Opinião Freq.Abs. Freq. Rel. (%)Freq. Rel. Ac.
(%)
Regular a Boa 32 64 64
Muito Boa 18 36 100
Total 50 100
0 10 20 30 40 50 60 70
Regular a Boa
Muito Boa
Frequência Relativa (%)
Opinião sobre a programação da TV
Visitas ao cinema
Freq.Abs.
Freq. Rel. (%)
Freq. Rel. Ac. (%)
0 3 6 6
1 21 42 48
2 18 36 84
3 3 6 90
4 4 8 98
5 1 2 100
Total 50 100
Gráfico de Barras –
Variáveis Quantitativas Discretas
0
5
10
15
20
25
30
35
40
45
0 1 2 3 4 5
Fre
qu
ênci
a R
elat
iva
(%)
Quantidade de visitas
Visitas ao cinema por semana
Peso (kg)Freq.Abs.
Freq. Rel. (%)
Freq. Rel. Ac. (%)
[40 ; 50) 8 16 16
[50 ; 60) 22 44 60
[60 ; 70) 8 16 76
[70 ; 80) 6 12 88
[80 ; 90) 5 10 98
[90 ; 100) 1 2 100
Total 50 100
Histograma –
Variáveis Quantitativas Contínuas
0
5
10
15
20
25
30
35
40
45
50
16
Fre
qu
ênci
a R
elat
iva
(%)
Peso (kg)
Peso dos alunos entrevistados
60 70 80 90 10040 50
Exercício 2 – Parte 2
� Quinze pacientes de uma clínica de ortopedia foram entrevistados quanto ao número de meses previstos de fisioterapia, se haverá (S) ou não (N) sequelas após o tratamento e o grau de complexidade da cirurgia realizada: alto (A), médio (M) ou baixo (B). Os dados são apresentados na tabela abaixo:
� Para cada variável, faça uma representação gráfica.
� Para o grupo de Pacientes que não ficaram com sequelas, faça um gráfico de barras para a variável Fisioterapia. Você acha que essa variável se comporta de modo diferente nesse grupo?
Pacientes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Fisioterapia 7 8 5 6 4 5 7 7 6 8 6 5 5 4 5
Sequelas S S N N N S S N N S S N S N N
Cirurgia A M A M M B A M B M B B M M A
Exercício 3
� Os dados abaixo referem-se ao salário (em salários mínimos) de 20 funcionários administrativos em uma indústria.
� Construa uma tabela de frequência agrupando os dados em intervalos de amplitude 2 a partir de 1 salário mínimo.
� Construa um histograma para representar os dados.
1,5 2,2 3,1 3,3 3,5 4,2 4,7 5 6,1 6,1
6,5 7,3 8,2 8,5 8,9 9 9,4 10 10,1 10,7
Gráficos de Dispersão Bidimensional
� Utiliza-se quando se deseja visualizar a relação entre duas variáveis;
� Considerando o exemplo dado, poderíamos ter o interesse em ver se o peso dos alunos está relacionado com a altura dos mesmos;
� Para montar esse tipo de gráfico deve-se colocar uma das variáveis no eixo vertical e a outra no eixo horizontal;
� Quero ver se o peso está relacionado com a altura, logo o peso deverá estar no eixo vertical e a altura no eixo horizontal;
� O peso de determinado aluno deverá estar relacionado com a altura dele mesmo, deve-se respeitar a individualidade de cada observação.
Dados de Altura e PesoId Alt Peso1 1,6 50,52 1,69 553 1,85 72,84 1,85 80,95 1,58 556 1,76 607 1,6 588 1,64 479 1,62 57,810 1,64 5811 1,72 7012 1,66 5413 1,7 5814 1,78 68,515 1,65 63,516 1,63 47,417 1,82 6618 1,8 58,219 1,6 54,520 1,68 52,521 1,7 6022 1,65 58,523 1,57 49,224 1,55 4825 1,69 51,6
Id Alt Peso26 1,54 5727 1,62 6328 1,62 5229 1,57 4930 1,65 5931 1,61 5232 1,71 7333 1,65 5634 1,67 5835 1,73 8736 1,6 4737 1,7 9538 1,85 8439 1,7 6040 1,73 7341 1,7 5542 1,45 4443 1,76 7544 1,68 5545 1,55 4946 1,7 5047 1,55 54,548 1,6 5049 1,8 7150 1,83 86
Gráfico de Dispersão
0
10
20
30
40
50
60
70
80
90
100
0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2
Pes
o (
kg)
Altura (m)
Gráfico de Dispersão (Peso vs Altura)Aluno 37 (1,7m e 95kg)
Aluno 42 (1,45m e 44kg)
Cuidados que devem ser tomados
� Para a visualização dos cuidados que devem ser utilizados ao se construir gráficos, utilizei as imagens apresentadas no trabalho:
� “O ensino de gráficos estatísticos no contexto da Educação Crítica” apresentado por:
� Campos, C. R.; Jacobini, O. R.; Ferreira, D. H. L.; e Lorenzetti, M. L.
� Na XIV Conferência Interamericana de Educação Matemática, ocorrida de 3 a 7 de maio de 2015 e
Cuidados que devem ser tomados
Cuidados que devem ser tomados
Escala errada, leva a interpretação errada
Cuidados que devem ser tomados
Cuidados que devem ser tomados
Ordem cronológica invertida e escala utilizada levam a achar que houve um grande aumento na inflação, quando na verdade houve uma queda de 0,23%.
Cuidados que devem ser tomados
Cuidados que devem ser tomados
Escala utilizada leva a acreditar que a diferença no gráfico da esquerda (11,8) é inferior à do gráfico da direita (0,8) – o que leva a erros de interpretação quando vistos rapidamente.
Cuidados que devem ser tomados
Cuidados que devem ser tomados
Mais uma vez a escala escolhida faz uma diferença pequena (1,59%), que dependendo do erro assumido pela pesquisa pode nem ser significativa, pareça enorme.
Cuidados que devem ser tomados
Cuidados que devem ser tomados
Soma das fatias do gráfico é igual à 193%, fazendo com que não seja possível fazer uma interpretação correta do mesmo.