R básico para Data Mining

18
R BÁSICO PARA DATA MINING Diego Cesar F. de Queiroz - dcfq

description

R básico para Data Mining. Diego Cesar F. de Queiroz - dcfq. Introdução ao R. R é um linguagem (ambiente) de programação para computação estatística e gráfica Baseada na linguagem S (S-Plus) O ambiente R é flexível Pode ser estendido através de pacotes Open source e gratuito. - PowerPoint PPT Presentation

Transcript of R básico para Data Mining

Page 1: R básico para Data  Mining

R BÁSICO PARA DATA MININGDiego Cesar F. de Queiroz - dcfq

Page 2: R básico para Data  Mining

INTRODUÇÃO AO R R é um linguagem (ambiente) de

programação para computação estatística e gráfica Baseada na linguagem S (S-Plus)

O ambiente R é flexível Pode ser estendido através de pacotes Open source e gratuito

Page 3: R básico para Data  Mining

INTRODUÇÃO AO R Homepage do projeto

http://cran.r-project.org/ O R é atualizado pelo menos a cada 6 meses

R version 2.9.0 has been released on 2009-04-17.

Usar http://www.rseek.org/ ao invés do google para buscar coisas relacionadas ao R.

Page 4: R básico para Data  Mining

OBSERVAÇÕES Dados são armazenados no “R” como um

vetor a=4 a[1]

O índice da primeira posição do vetor é sempre 1

Comentários devem ser precedidos por ‘#’ A função c() serve para concatenar em forma

vetorial. vetor <- c(1,2,3,4,5,6)

Page 5: R básico para Data  Mining

OBSERVAÇÕES Para sair

>q () Para obter ajuda sobre um comando

>help (<nome do comando>) Se não sabe o nome do comando completo

>help.search (“<parte do comando>”) >apropos(“parte do nome do comando”)

Page 6: R básico para Data  Mining

ENTRADA E SAÍDA – READ.TABLE O comando setwd ajusta o diretório de

trabalhosetwd(“c:/temp”)

Para ler arquivos com nomes de colunas na primeira linha, usevariavel <- read.table (“filename.ext”,

header=TRUE) Para obter os vetores de cada coluna

rotulada variavel$nomedacoluna

Page 7: R básico para Data  Mining

ENTRADA E SAÍDA – SCAN O comando setwd ajusta o diretório de

trabalhosetwd(“c:/temp”)

Para ler arquivos com nomes de colunas na primeira linha, usevariavel <- scan (“datafile2.dat”, what=list

(x=0,y=0)) Para obter os vetores de cada coluna

rotulada variavel$x variavel$y

Page 8: R básico para Data  Mining

ENTRADA E SAÍDA – READ.CSV Para ler arquivos separados por vírgula ou

ponto e vírgula, usevariavel <- read.csv(“filename.csv",

sep=";", dec=",",header=FALSE) Para obter os vetores

variavel$x variavel$y

Page 9: R básico para Data  Mining

ENTRADA E SAÍDA – EDIT() Por fim, para digitar os dados em formato de

tabela pode-se utilizar o comando edit() variavel <- edit(data.frame())

Page 10: R básico para Data  Mining

ENTRADA E SAÍDA WRITE.TABLE() E WRITE.CSV() Para salvar um objeto do R podemos utilizar

o write.table ou write.csv write.table(objectname, file =“filename.ext”,

sep=“,”) write.csv(objectname, file =“filename.ext”)

Page 11: R básico para Data  Mining

MATRIZES Para definir um conjunto de números como

uma matriz utilizamos a função matrix: m <- matrix(c(1,2,3,11,12,13), nrow = 2, ncol=3,

byrow=TRUE)

Page 12: R básico para Data  Mining

OPERAÇÕES MATEMÁTICAS

entre matrizes e números: se x é uma matriz, temos:

soma: x + 2 subtração: x - 2 produto: x * 2 divisão: x / 2 potência: x ^ 2 divisão inteira: x % / % 2 mod: x %% 2

Page 13: R básico para Data  Mining

OPERAÇÕES MATEMÁTICAS

entre matrizes: se x e y são matrizes, temos:

soma: x + y subtração: x - y produto: x %*% y

Page 14: R básico para Data  Mining

OPERADORES LÓGICOS

maior que: > , >= menor que: < , <= igual a: == diferente de: != para expressões:

and: & or: | not: !

Page 15: R básico para Data  Mining

ALGUMAS FUNÇÕES ÚTEIS min() max() sum() mean() median() sd() cor() var() cov() hist() cbind() rbind()

Page 16: R básico para Data  Mining

FUNÇÕES DE PLOTAGEM – PLOT() A função plot é a função padrão de desenho

no R, todas as outras funções de desenho a utilizam como base plot(c(1:9),c(1:9), xlab=“Eixo x”, ylab=“Eixo y”) Existem algumas variações utilizando o

parâmetro ‘type’, ex: type=‘l’

Page 17: R básico para Data  Mining

FUNÇÕES DE PLOTAGEM – BOXPLOT() A função boxplot cria boxplot de tipos

variados, ela pode ser utilizada de maneira singular: boxplot(c(1:9))

Pode-se também desenhar vários boxplots simultaneamente com boxplot(c(1:9),(c(1:9)/10))

Page 18: R básico para Data  Mining

R BÁSICO PARA DATA MININGDiego Cesar F. de Queiroz - dcfq