AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de...
-
Upload
nguyencong -
Category
Documents
-
view
214 -
download
0
Transcript of AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de...
![Page 1: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/1.jpg)
Análise de Dados e Simulação
Márcia D’Elia Brancohttp://www.ime.usp.br/~mbranco
Análise ExploratóriaUnidimensional
![Page 2: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/2.jpg)
APOIO COMPUTACIONAL
Software: R
• Vantagem: software livre• Download: http://www.r-project.org/
- Escolher opção Download R- Seguir os passos de instalação
Biblioteca Rcmdr
• Vantagem: ambiente baseado em menus• Deve ser instalada após instalação do R• Instruções de instalação no material de apoio
2
![Page 3: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/3.jpg)
Instalar o pacote Rcmdr
3
![Page 4: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/4.jpg)
Carregar o pacote para utilizá‐lo
4
![Page 5: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/5.jpg)
Exemplo 1. Título do projeto: “Progressão Continuada e Seriação:
um estudo comparativo”.
• Estudo realizado pela Faculdade de Educação da Universidade de São Paulo
• Ano de realização: 2012
• Finalidade: Doutorado
• Análise Estatística: Centro de Estatística Aplicada (CEA12P11) – IME‐USP
5
![Page 6: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/6.jpg)
Exemplo 1.
• Objetivo: Comparar os regimes seriado e continuadodas escolas públicas e compreender o efeito do regimeescolar no desempenho dos alunos.
• Dados: Prova Brasil de 2007 e 2009.
Amostra: 1.128 alunos de 6 escolas
• 2 escolas municipais (regime seriado)
• 4 escolas estaduais (regime continuado)
6
![Page 7: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/7.jpg)
Exemplo 1. Algumas variáveis:
• Proficiência em Português/Matemática (valores de 0 a 500)
• Sexo do aluno (feminino/masculino)
• Escolaridade do pai/mãe (nunca estudou, completou até a 5ªsérie, ensino fundamental completo, ensino médio completo,ensino superior completo)
• Número de livros em casa (valores no conjunto dos naturais)
• Frequência que faz os deveres de casa (nunca ou quase nunca, oprofessor não passa dever de casa, de vez em quando, sempre ouquase sempre)
• Professor corrige o dever de casa (nunca ou quase nunca, de vezem quando, sempre ou quase sempre)
• Escola (municipal, estadual)
7
![Page 8: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/8.jpg)
Importar o conjunto de dados:
Visualizar os dados:
8
![Page 9: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/9.jpg)
Número de livros em casa
Proficiência em Matemática
Discreta
Contínuas
Sexo
Escolaridade do pai
Nominal
Ordinal
9
Variáveis qualitativas
Variáveis quantitativas
![Page 10: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/10.jpg)
Variância (s2)Desvio padrão (s)
Intervalo‐interquartil (Q3 – Q1)Coeficiente de variação (CV)
‐Média (x)Mediana (md) Quartis (Q1, Q3)Máximo (máx)Mínimo (min)
Medidas de posição
Medidas de dispersão
10
Variáveis quantitativas
![Page 11: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/11.jpg)
Estatísticas Resumo
mean sd IQR 0% 25% 50% 75%PROF_MAT 212.4431 51.85155 73.60565 0 176.1596 210.0091 249.7653
100% n355.2183 1228
mean sd IQR 0% 25% 50% 75%PROF_PORT 190.5915 47.01356 63.72711 0 157.1702 189.4499 220.8973
100% n338.6800 1228
11
![Page 12: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/12.jpg)
12
![Page 13: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/13.jpg)
13
Boxplot da prof. em matemática
segundo a escola
Boxplot da prof. em português
segundo a escola
Alguns Comentários:
• Há observações discrepantes para a escola estadual;
• Distribuição dos valores um pouco diferente para as duas escolas.
![Page 14: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/14.jpg)
Os dados também podem ser resumidosconstruindo‐se uma tabela de distribuiçãode frequências .
Distribuição de frequências de uma variávelé uma lista dos valores individuais ou dosintervalos de valores que a variável podeassumir, com as respectivas frequências deocorrência.
14
![Page 15: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/15.jpg)
Construir intervalos de classe
1) Criar uma nova variável
15
![Page 16: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/16.jpg)
Construir intervalos de classe2) Obter a distribuição de frequências da nova variável
Classes(0,59] (59,118] (118,178] (178,237] (237,296] (296,356]
Distribuição de frequências para a variável Proficiência em Matemática
f226296512324 68
fr (%)0.16 2.12 24.10 41.6926.385.54
16
![Page 17: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/17.jpg)
Gráficos
• “Strip Chart” ou “Dotplot”
• “Boxplot”
• Histograma
17
Variáveis quantitativas
![Page 18: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/18.jpg)
18
STRIP CHART ou DOT PLOTExemplo: Dados de performance e design de 10 modelos de carros(1973‐74) retirados do arquivomtcars (disponível no R)
Variáveis: ‐ Número de carburadores‐ Câmbio: manual ou automático
![Page 19: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/19.jpg)
Boxplot
Representa os dados através de um retânguloconstruído com os quartis e forneceinformações sobre os valores extremos.
19
![Page 20: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/20.jpg)
20
“Máximo”
Q3
Mediana
Q1
“Mínimo”
25%
50%
75%
ConstruçãoLS=Q3+1,5(Q3‐Q1)
LI=Q1‐1,5(Q3‐Q1)
“Máximo” é o maior valor menor que LS;
“Mínimo” é o menor valor maior que LI.
![Page 21: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/21.jpg)
Gráficos: Boxplot
21
![Page 22: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/22.jpg)
Professor corrige o dever de matemática/português0: Nunca ou quase nunca1: De vez em quando2: Sempre ou quase sempre
Boxplot da prof. em matemática
segundo a correção do dever pelo professor
Boxplot da prof. em português
segundo a correção do dever pelo professor
22
![Page 23: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/23.jpg)
Exemplo 2.
Título do projeto: “Caracterização Postural de
Crianças de 7 e 8 anos das Escolas Municipais da Cidade
de Amparo/SP”
• Estudo realizado pelo Departamento deFisioterapia, Fonoaudiologia e Terapia Ocupacionalda Faculdade de Medicina da USP
• Ano de realização: 2006• Finalidade: mestrado• Análise Estatística: Centro de Estatística Aplicada (CEA06P24), IME‐USP
23
![Page 24: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/24.jpg)
• Objetivo: caracterizar a postura de crianças dacidade de Amparo/SP, entre sete e oito anos deambos os sexos
• Amostra: 230 crianças com 7 e 8 anos.
• Medidas de postura das crianças foram obtidas.
Exemplo 2.
Variações de postura na criança, associadas aos estágios
de crescimento, surgem em resposta aos problemas de
equilíbrio devido às mudanças nas proporções do corpo.
24
![Page 25: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/25.jpg)
Exemplo 2. Algumas variáveis:
• Sexo (feminino, masculino);
• Peso (em kg);
• Altura (em metros);
• Índice de Massa Corpórea – IMC (em kg/m2);
• Atividade Física (em hs/semana);
• Tipo de Mochila Utilizada (com fixação escapular, comfixação lateral, de carrinho, outros);
• Dominância (destro, canhoto);
• Região da escola;25
![Page 26: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/26.jpg)
• Postura do ombro no plano frontal (cm):foi avaliado o desnível entre os ombros,conforme figura, e anotou‐se a diferençaDireito‐Esquerdo;
• Avaliação da Lordose Lombar (graus): foiavaliado o aumento da lordose lombar(hiperlordose) e a diminuição desta(retificação), pela mensuração do ânguloformado entre os pontos de maiorconvexidade da coluna torácica e da regiãoglútea e o ponto de maior concavidade dacoluna lombar, em ambos lados (Direito eEsquerdo).
Exemplo 2. Algumas variáveis relativas a postura
26
![Page 27: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/27.jpg)
Boxplot do desnível dos ombrosBoxplot do desnível dos ombros
segundo o sexo
Alguns Comentários:
• há uma observação discrepante para meninas;
• não há observações discrepantes para meninos;
• medidas de posição tendem a ser próximas para os dois sexos.27
![Page 28: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/28.jpg)
Boxplots do desnível dos ombros segundo Dominância
Frequências:
Direita 212
Esquerda 17
Ambidestra 1
Alguns Comentários:
• Note que só há uma criança ambidestra;
• Há observações discrepantes para dominância esquerda e direita;
• Distribuição dos valores bem diferente para as duas dominâncias.28
![Page 29: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/29.jpg)
Histograma
Bases iguais
Construir um retângulo para cada classe, com base igualao tamanho da classe e altura proporcional à frequênciada classe (f).
Agrupar os dados em intervalos de classes (distribuição de frequências)
Bases diferentes
Construir um retângulo para cada classe, com base igual aotamanho da classe e área do retângulo igual a frequênciarelativa da classe (fr). A altura será dada por
h = fr/base (densidade de frequência).29
![Page 30: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/30.jpg)
Histograma da altura
Distribuição de frequências paraaltura
Classe de altura f fr (%)
1,10 1,151,15 1,201,20 1,251,25 1,301,30 1,351,35 1,401,40 1,45
Total
733587736181
230
3,0414,3525,2233,4815,657,830,43
10030
![Page 31: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/31.jpg)
31
Exemplo: Classes desiguais
0 3 12 24 60
f
Classes (meses) f fr h
0 |‐ 3 140 0,28 0,093
3 |‐ 12 100 0,20 0,022
12 |‐24 80 0,16 0,013
24 |‐60 180 0,36 0,010
Total 500 1,00
Distribuição das idades (em meses) de uma amostra de 500 crianças
vacinadas
0 3 12 24 60
h0,10
0,02
0,04
0,06
0,08
![Page 32: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/32.jpg)
Forma da Distribuição
32
![Page 33: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/33.jpg)
Variáveis Qualitativas
Os dados podem ser resumidos construindo‐seuma tabela de distribuição de frequências, quequantifica a frequência das distintas categorias.
Variáveis qualitativas do exemplo 2
Dominância
SexoTipo de mochila
33
![Page 34: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/34.jpg)
Variáveis qualitativas
Sexo Freq. (%) Dominância Freq. (%)M 130 56,52 Direita 212 92,17F 100 43,48 Esquerda 17 7,39 N= 230 Ambidestra 1 0,43
N= 230
Medidas descritivas para variáveis qualitativas
34
Tipo Mochila Freq. (%)Escapular 123 53,48Lateral 23 10,00Carrinho 80 34,78Outros 4 1,74N= 230
![Page 35: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/35.jpg)
• Gráfico de setores
• Gráfico de barras
Gráficos
35
Variáveis qualitativas
![Page 36: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/36.jpg)
Gráfico de setores
Um círculo é dividido em tantos setoresquantas forem as categorias da variável.A área de cada setor é proporcional àfrequência da categoria
36
![Page 37: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/37.jpg)
Gráfico de setores para a variável “Tipo de mochila”
Gráfico de setores para a variável “Região da escola”
37
![Page 38: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/38.jpg)
Gráfico de barras
Sobre um eixo, são representadosretângulos, um para cada categoria davariável. A altura do retângulo éproporcional à frequência dacategoria
38
![Page 39: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível](https://reader030.fdocumentos.tips/reader030/viewer/2022020415/5be645d709d3f23a518c9cd9/html5/thumbnails/39.jpg)
Gráfico de barras para a variável “Tipo de mochila”
Gráfico de barras para a variável “Região da escola”
39