Mineração de dados

7
Dicas para a realização do Trabalho1 Mineração de dados

description

Mineração de dados. Dicas para a realização do Trabalho1. Dicas gerais. Para este trabalho, é melhor que os arquivos estejam no formato ARFF Para gerar um arquivo ARFF, pode-se abrir um arquivo compatível com o Weka, como o CSV, e salvar como ARFF, ou criar “a mão” o arquivo no formato ARFF. - PowerPoint PPT Presentation

Transcript of Mineração de dados

Page 1: Mineração de dados

Dicas para a realização do Trabalho1

Mineração de dados

Page 2: Mineração de dados

Dicas gerais

Para este trabalho, é melhor que os arquivos estejam no formato ARFF

Para gerar um arquivo ARFF, pode-se abrir um arquivo compatível com o Weka, como o CSV, e salvar como ARFF, ou criar “a mão” o arquivo no formato ARFF.

Quando se abre um arquivo CSV no Weka, o primeiro registro é usado para nomear as colunas (atributos)

Page 3: Mineração de dados

Salvar e utilizar o modelo de classificação

Salvar:

1. executar o algoritmo de classificação (por exemplo, o J48) para realizar o treinamento (geração do modelo)

2. Clique o botão direito sobre o modelo que deve ser salvo, na Results list

3. Selecione Save model e salve o modelo.

Carregar (o modelo salvo anteriormente)

1. Carregue os dados de teste usando a opção Supplied test set

2. Clique o botão direito na Results list, selecione Load model e escolha o modelo salvo para carregar

3. Selecione Re-evaluate model on current test setOBS: - o arquivo usado para teste deve conter os mesmos nomes de atributos e os mesmos tipos que o arquivo usado para gerar o modelo.

Page 4: Mineração de dados

Arquivo a ser entregue

O arquivo a ser entregue junto com o relatório do trabalho deve ser um arquivo texto, com uma só coluna, contendo a classe prevista (1 a 7), na mesma ordem do arquivo contest.txt.

Page 5: Mineração de dados

Geração do arquivo

Em Test options, clicar em More options , marcar Output predictions e desmarcar todas as demais opções.

O arquivo arff a ser gerado a partir de contest.txt deve ter as mesmas 4 colunas (atributos) que o treino.arff , com os mesmos nomes e tipos de atributo. A coluna correspondente à classe deve ser toda preenchida com o caractere ?

Carregue os dados contest.arff usando a opção Supplied test set e execute como visto anteriormente

Page 6: Mineração de dados

Formato do resultado da execução

=== Run information ===Scheme: weka.classifiers.rules.ZeroR Relation: treino1-weka.filters.unsupervised.attribute.NumericToNominal-R4Instances: 1500Attributes: 4 att1 att2 att3 classeTest mode: user supplied test set: size unknown (reading incrementally)=== Predictions on test set === inst#, actual, predicted, error, probability distribution 1 ? 3:3 + 0.127 0.084 *0.34 0.133 0.131 0.088 0.098 2 ? 3:3 + 0.127 0.084 *0.34 0.133 0.131 0.088 0.098 3 ? 3:3 + 0.127 0.084 *0.34 0.133 0.131 0.088 0.098 4 ? 3:3 + 0.127 0.084 *0.34 0.133 0.131 0.088 0.098 5 ? 3:3 + 0.127 0.084 *0.34 0.133 0.131 0.088 0.098 6 ? 3:3 + 0.127 0.084 *0.34 0.133 0.131 0.088 0.098

..........1182 ? 3:3 + 0.127 0.084 *0.34 0.133 0.131 0.088 0.098

Page 7: Mineração de dados

Formato do arquivo a ser entregue

333333333333…3

Arquivo texto que contém uma só coluna, com a classe prevista.

Importante: a ordem dos registros deve ser a mesma do arquivo contest.txt fornecido e deve ter 1182 registros