Ferramentas para Mineração de Dados

Post on 05-Dec-2014

852 views 3 download

description

 

Transcript of Ferramentas para Mineração de Dados

Ferramentas para Mineração de DadosManoel de Albuquerque Lira Amaro

quinta-feira, 6 de dezembro de 12

Agenda• Introdução

• Weka

• Interface Gráfica

• Arquivos ARFF

• Ferramentas para ARFF

• Exemplos

• Mahout

• Introdução ao Mahout

• Conclusão/Referências

quinta-feira, 6 de dezembro de 12

Introdução

• Softwares:

• Weka

• Mahout

• OpenSource

• Utilizados pela academia

quinta-feira, 6 de dezembro de 12

Weka

• Software de aprendizagem de máquina

• Pré-processamento

• Mineração de Dados

• Escrito em JAVA

quinta-feira, 6 de dezembro de 12

Weka

• Algoritmos de:

• Classificação

• Clusterização

• Regras de Associação

• Permite

• Seleção de Atributos

• Visualização de Dados

quinta-feira, 6 de dezembro de 12

Interface

quinta-feira, 6 de dezembro de 12

Interface

• Simple CLI

• Command Line Interface

• Simples e útil

• Para sistemas sem interface gráfica

• java weka.associations.Appriori -t veiculos.arff

quinta-feira, 6 de dezembro de 12

Explorer

quinta-feira, 6 de dezembro de 12

Entrada de dados

Arquivo ARFFPor uma URLBanco de Dados JDBC

quinta-feira, 6 de dezembro de 12

Arquivo ARFF

• Arquivo de texto com todos os dados, precedido de um cabeçalho

• Semelhante ao CSV

• O cabeçalho define a estrutura dos dados

• Nome, domínio, tipo, etc.

quinta-feira, 6 de dezembro de 12

Arquivo ARFF

• Cabeçalho

• Dados

quinta-feira, 6 de dezembro de 12

Arquivo ARFF

• @relation

• nome do arquivo

• @attribute [nome] [tipo|{valores}]

• Declaração de atributos

• Colunas de uma tabela

quinta-feira, 6 de dezembro de 12

Arquivo ARFF

• @data

• Segue a sequência definida pelos atributos

• Linhas de uma tabela

quinta-feira, 6 de dezembro de 12

Ferramentas para ARFF

• Formato pouco utilizado

• Ferramentas para conversão

• CSV > ARFF (online)

• http://slavnik.fe.uni-lj.si/markot/csv2arff/csv2arff.php

quinta-feira, 6 de dezembro de 12

Ferramentas para ARFF

• Programa em JAVA para conversão

• API do Weka

• Fácil adaptação para outras fontes de dados

quinta-feira, 6 de dezembro de 12

Exemplo 1

• ARFF

• Venda de veículos

• Atributos

• idade, renda, carro

quinta-feira, 6 de dezembro de 12

Exemplo 1

• Classificação

• Base de dados precisa conter:

• Um ou mais atributos preditivos;

• Idade e Renda

• Um atributo especial, denominado atributo classe (ou atributo alvo).

• Carro

quinta-feira, 6 de dezembro de 12

Exemplo 1

quinta-feira, 6 de dezembro de 12

Exemplo 1

quinta-feira, 6 de dezembro de 12

Exemplo 1

quinta-feira, 6 de dezembro de 12

Exemplo 1- Resultados

quinta-feira, 6 de dezembro de 12

Exemplo 2

• Dataset de vendas do supermercado

• Carrinho de compras

• Departamentos do supermercado

quinta-feira, 6 de dezembro de 12

Exemplo 2

• Uso de um algoritmo de associação

• Descobrir relações entre os departamentos, a partir do histórico de compras dos clientes.

quinta-feira, 6 de dezembro de 12

Exemplo 2

quinta-feira, 6 de dezembro de 12

Weka

• Software bem didático

• Alguns papers utilizaram para mineração de dados reais

• Permite integração a aplicações JAVA via API (não tão simples assim)

• Independente de plataforma

• Atualizações frequentes

quinta-feira, 6 de dezembro de 12

Apache Mahout

• Biblioteca para Aprendizagem de Máquina

• Licença OpenSource

• Escalável

• Paradigma Map/Reduce

• Plataforma Hadoop

quinta-feira, 6 de dezembro de 12

Hadoop

quinta-feira, 6 de dezembro de 12