R BÁSICO PARA DATA MININGDiego Cesar F. de Queiroz - dcfq
INTRODUÇÃO AO R R é um linguagem (ambiente) de
programação para computação estatística e gráfica Baseada na linguagem S (S-Plus)
O ambiente R é flexível Pode ser estendido através de pacotes Open source e gratuito
INTRODUÇÃO AO R Homepage do projeto
http://cran.r-project.org/ O R é atualizado pelo menos a cada 6 meses
R version 2.9.0 has been released on 2009-04-17.
Usar http://www.rseek.org/ ao invés do google para buscar coisas relacionadas ao R.
OBSERVAÇÕES Dados são armazenados no “R” como um
vetor a=4 a[1]
O índice da primeira posição do vetor é sempre 1
Comentários devem ser precedidos por ‘#’ A função c() serve para concatenar em forma
vetorial. vetor <- c(1,2,3,4,5,6)
OBSERVAÇÕES Para sair
>q () Para obter ajuda sobre um comando
>help (<nome do comando>) Se não sabe o nome do comando completo
>help.search (“<parte do comando>”) >apropos(“parte do nome do comando”)
ENTRADA E SAÍDA – READ.TABLE O comando setwd ajusta o diretório de
trabalhosetwd(“c:/temp”)
Para ler arquivos com nomes de colunas na primeira linha, usevariavel <- read.table (“filename.ext”,
header=TRUE) Para obter os vetores de cada coluna
rotulada variavel$nomedacoluna
ENTRADA E SAÍDA – SCAN O comando setwd ajusta o diretório de
trabalhosetwd(“c:/temp”)
Para ler arquivos com nomes de colunas na primeira linha, usevariavel <- scan (“datafile2.dat”, what=list
(x=0,y=0)) Para obter os vetores de cada coluna
rotulada variavel$x variavel$y
ENTRADA E SAÍDA – READ.CSV Para ler arquivos separados por vírgula ou
ponto e vírgula, usevariavel <- read.csv(“filename.csv",
sep=";", dec=",",header=FALSE) Para obter os vetores
variavel$x variavel$y
ENTRADA E SAÍDA – EDIT() Por fim, para digitar os dados em formato de
tabela pode-se utilizar o comando edit() variavel <- edit(data.frame())
ENTRADA E SAÍDA WRITE.TABLE() E WRITE.CSV() Para salvar um objeto do R podemos utilizar
o write.table ou write.csv write.table(objectname, file =“filename.ext”,
sep=“,”) write.csv(objectname, file =“filename.ext”)
MATRIZES Para definir um conjunto de números como
uma matriz utilizamos a função matrix: m <- matrix(c(1,2,3,11,12,13), nrow = 2, ncol=3,
byrow=TRUE)
OPERAÇÕES MATEMÁTICAS
entre matrizes e números: se x é uma matriz, temos:
soma: x + 2 subtração: x - 2 produto: x * 2 divisão: x / 2 potência: x ^ 2 divisão inteira: x % / % 2 mod: x %% 2
OPERAÇÕES MATEMÁTICAS
entre matrizes: se x e y são matrizes, temos:
soma: x + y subtração: x - y produto: x %*% y
OPERADORES LÓGICOS
maior que: > , >= menor que: < , <= igual a: == diferente de: != para expressões:
and: & or: | not: !
ALGUMAS FUNÇÕES ÚTEIS min() max() sum() mean() median() sd() cor() var() cov() hist() cbind() rbind()
FUNÇÕES DE PLOTAGEM – PLOT() A função plot é a função padrão de desenho
no R, todas as outras funções de desenho a utilizam como base plot(c(1:9),c(1:9), xlab=“Eixo x”, ylab=“Eixo y”) Existem algumas variações utilizando o
parâmetro ‘type’, ex: type=‘l’
FUNÇÕES DE PLOTAGEM – BOXPLOT() A função boxplot cria boxplot de tipos
variados, ela pode ser utilizada de maneira singular: boxplot(c(1:9))
Pode-se também desenhar vários boxplots simultaneamente com boxplot(c(1:9),(c(1:9)/10))
R BÁSICO PARA DATA MININGDiego Cesar F. de Queiroz - dcfq
Top Related