ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem...
-
Upload
trannguyet -
Category
Documents
-
view
216 -
download
0
Transcript of ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem...
![Page 1: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/1.jpg)
Estatística-2018/2 Turma: Geografia
![Page 2: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/2.jpg)
Mostrar como o usar o R para:
calcular medidas de posição e dispersão de um conjunto de dados;
construir um boxplot.
Objetivos da aula
![Page 3: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/3.jpg)
A função apropriada do R para obter os quantis de uma distribuição é a função quantile.
Se x é o vetor contendo os dados, e desejamos determinar os três quartis, digitamos
quantile(x,c(0.25,0.5,0.75)) Se desejamos o quinto (5%) e o nonagésimo-
quinto (95%) percentis, pedimos
quantile(x,c(0.05,0.95)) Em geral, q(p) quantile(x,p)
Determinação dos quantis de uma distribuição usando o R
![Page 4: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/4.jpg)
Exemplo dos salários:
dados=read.table(“E:\\geografia\\ciaMB.txt”,header=T)
# calculando os quartis
quantile(dados$sal, c(0.25,0.5,0.75))
25% 50% 75%
7.5525 10.1650 14.0600
Pedindo a saída com duas casas decimais
round(quantile(dados$sal,c(0.25,0.5,0.75)),digits=2)
25% 50% 75%
7.55 10.16 14.06
![Page 5: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/5.jpg)
Continuação do Exemplo:
Esquema dos cinco números:
fivenum(dados$sal)
[1] 4.000 7.515 10.165 14.270 23.300
mean(dados$sal) # média
[1] 11.12222
median(dados$sal) #mediana
[1] 10.165
max(dados$sal) # máximo
[1] 23.3
min(dados$sal) #mínimo
[1] 4
![Page 6: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/6.jpg)
![Page 7: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/7.jpg)
Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados são do ano de 1995.
Fonte: Stabilizing The Atmosphere: Population, Consumption and Greenhouse Gases.
Exemplo 1: Emissão de Dióxido de Carbono
![Page 8: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/8.jpg)
dados=read.table(“c:\\flavia\\dados13bm.txt”,header=T)
# na primeira coluna está o nome do país e, na segunda, o dado sobre emissão do país.
Comando para ler o arquivo
![Page 9: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/9.jpg)
Determine os três quartis, os decis, a média e o desvio-padrão das emissões registradas para os 72 países em 1995.
Exemplo 1: Emissão de Dióxido de Carbono (cont.)
![Page 10: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/10.jpg)
names(dados) # nomes atribuídos as duas colunas do conjunto de dados
"pais" "emissao"
quantile(dados$emissao,c(0.25,0.5,0.75))
# comando para retornar os quantis de 25%, 50% e 75%, os três quartis.
25% 50% 75%
0.0675 0.4150 1.4725
Exemplo 1: Emissão de Dióxido de Carbono (cont.)
![Page 11: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/11.jpg)
quantile(dados$emissao,c(.1,.2,.3,.4,.5,.6,.7,.8,.9))
# comando para retornar os 9 decis, a saber, 10%, 20%, ..., 90%.
10% 20% 30% 40% 50% 60% 70% 80% 90%
0.02 0.05 0.14 0.28 0.42 0.87 1.26 1.99 3.02
Observe que nessa lista os valores estão arredondados com duas casas decimais.
Exemplo 1: Emissão de Dióxido de Carbono (cont.)
![Page 12: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/12.jpg)
• > mean(dados$emissao) • # retorna a média de emissões • [1] 1.174167 • > var(dados$emissao) • # retorna a variância • 2.853036 • > sd(dados$emissao) • #retorna o desvio padrão de emissões • [1] 1.689093 • median(dados$emissao) # retorna a mediana de emissões • [1] 0.415
Exemplo 1: Emissão de Dióxido de Carbono (cont.)
![Page 13: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/13.jpg)
• > round(mean(dados$emissao),digit=2)
• # retorna a média de emissões com duas casas decimais
• [1] 1.17
• > round(sd(dados$emissao) ,digit=2)
• #retorna o desvio padrão de emissões com duas casas decimais
• [1] 1.69
Exemplo 1: Emissão de Dióxido de Carbono (cont.)
![Page 14: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/14.jpg)
Histograma das emissões
Observe que a distribuição de frequências de dados sobre emissão apresenta forte assimetria positiva
Observe também que há uma classe sem representantes nessa distribuição
![Page 15: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/15.jpg)
Histograma das emissões: sugerindo 10 intervalos:
(0,0.33,0.67,1,1.33,1.67,2,3,4,6,10)
Observe que nesse histograma os intervalos têm comprimentos diferentes.
Nesse caso devemos usar a escala de densidade de frequência dada pela razão da frequência com o comprimento do intervalo.
![Page 16: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/16.jpg)
Observe que nessa figura tem-se Q2-Q1<Q3-Q2 Q2-x(1)<<x(n)-Q2 Q1-x(1)<<x(n)-Q3
![Page 17: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/17.jpg)
É uma lista de informações da distribuição que inclui cinco medidas, a saber, x(1), Q1, Q2, Q3 e x(n).
Estes cinco valores são importantes para se ter uma boa ideia da assimetria dos dados.
Esquema dos cinco números
![Page 18: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/18.jpg)
Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter:
(a) Q2- x(1) x(n)-Q2;
(b) Q2-Q1 Q3-Q2;
(c) Q1- x(1) x(n)-Q3;
Esquema dos cinco números
![Page 19: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/19.jpg)
O R possui uma função que retorna as informações do esquema dos cinco números: fivenum(x), se x é o vetor que contém os dados.
Exemplo:
x<-c(1,1,1,2,2,2,2,3,3,3,4,4,4,5,5,6,7,8,9,10)
fivenum(x)
[1] 1.0 2.0 3.5 5.5 10.0
Comandos summary() e fivenum()
![Page 20: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/20.jpg)
summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 2.00 3.50 4.10 5.25 10.00
O comando summary(x), quando x é um vetor numérico, produz as informações do esquema dos cinco números e a média.
Comandos summary() e fivenum()
![Page 21: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/21.jpg)
A informação contida no esquema dos cinco números pode ser traduzida graficamente num diagrama, conhecido como box plot.
A figura a seguir, ilustra o boxplot.
Desenho Esquemático (Box Plots)
![Page 22: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/22.jpg)
![Page 23: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/23.jpg)
O retângulo no boxplot é traçado de tal maneira que suas bases têm alturas correspondentes aos primeiro e terceiro quartis da distribuição.
O retângulo é cortado por um segmento paralelo às bases, na altura correspondente ao segundo quartil.
Assim, o retângulo do boxplot correponde aos 50% valores centrais da distribuição.
Boxplot
![Page 24: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/24.jpg)
![Page 25: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/25.jpg)
Depois de desenhado o retângulo, traça-se um segmento paralelo ao eixo, partindo do ponto médio da base superior do retângulo até o maior valor observado que NÃO supera o valor de Q3+(1,5)DEQ.
O mesmo é feito a partir do ponto médio da base inferior do retângulo, até o menor valor que NÃO é menor do que Q1-(1,5)DEQ.
Cosntruindo o boxplot
![Page 26: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/26.jpg)
![Page 27: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/27.jpg)
As observações que estiverem acima de Q3+(1,5)DEQ ou abaixo de Q1-(1,5)DEQ são chamadas pontos exteriores e representadas por asteriscos.
Essa observações destoantes das demais podem ser o que chamamos de outliers ou valores atípicos.
Fechando o boxplot
![Page 28: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/28.jpg)
![Page 29: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/29.jpg)
![Page 30: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/30.jpg)
Observações
Não necessariamente haverá a presença de pontos exteriores num boxplot.
Quando for este o caso, o esquema terá a seguinte aparência:
![Page 31: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/31.jpg)
Experimente pedir ao R para construir um boxplot dos dados sobre emissões de dióxido de carbono: boxplot(dados$emissao)
A função boxplot no R
![Page 32: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/32.jpg)
![Page 33: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/33.jpg)
![Page 34: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/34.jpg)
Observação: é possível construir vários boxplots na mesma função.
boxwex: controla a largura dos retângulos no boxplot. O default é 0.8.
outline: valor lógico. Se T, os pontos exteriores são assinalados (default). Se F, os pontos exteriores não são assinalados
Alguns argumentos da função boxplot
![Page 35: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/35.jpg)
Vamos trabalhar com os dados sobre salários para diferentes profissões/formações do conjunto dados6bm.txt.
dados<-read.table(“c:\\flavia\\dados6bm.txt”,header=T)
Há quatro profissões diferentes, a saber, nivelmedio, mecanico, administrador, engeletrico.
boxplot(dados[,2],dados[,3],dados[,4],dados[,5],names=c(“nivel medio”,”mecanico”,”administrador”,”eng.eletrico”))
Exemplo 2
![Page 36: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/36.jpg)
1 – nível médio
2 – mecânico
3 – administrador
4 – Eng. Elétrico
![Page 37: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/37.jpg)
Cores
col - cor de preenchimento dos retângulos
![Page 38: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/38.jpg)
Boxplots horizontais
horizontal - valor lógico, se T o boxplot fica na posição horizontal. Se F (default) fica na posição vertical.
![Page 39: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/39.jpg)
ylim: controla a escala de valores
main: título
sub: sub-título
names: vetor com os rótulos dos conjuntos de dados, quando são pedidos mais de um boxplot.
pch: específica o caracter a ser usado nos pontos exteriores. Ex.: pch=“*”.
Outros argumentos
![Page 40: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/40.jpg)
Exemplo 3
Dados sobre temperaturas médias mensais.
(dados5bm.txt)
Com as temperaturas médias mensais, separadas mês a mês,
para cada cidade, construa boxplots para analisar
o comportamento das mesmas, para cada cidade.
![Page 41: ANÁLISE EXPLORATÓRIA DE DADOS - im.ufrj.br · Os dados no arquivo dados13bm.txt fornecem emissões de dióxido de carbono "per capita", para uma amostra de 72 países. Os dados](https://reader031.fdocumentos.tips/reader031/viewer/2022022110/5c16ee6b09d3f28f0a8d3f28/html5/thumbnails/41.jpg)
Boxplots das temperaturas mensais de Ubatuba e Cananéia
mês do ano mês do ano