Mineração de dados com RapidMiner + WEKA - Clusterização
-
Upload
joao-gabriel-lima -
Category
Technology
-
view
436 -
download
2
Transcript of Mineração de dados com RapidMiner + WEKA - Clusterização
Mineração dedadoscomRapidMiner +WEKA
Clusterização
PROF.JOÃO GABRIELL IMA@JGABRIEL_L IMA
LINKEDIN.COM/IN/JOAOGABRIELL IMA
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Prof.João GabrielLima
• Pesquisador emMineração dedadoseInteligência Computacional;
• Engenheiro daComputação,especialista em SoftwareeHardware;
• Doutorando em Computação Aplicada;
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Conhecendo nossa basededadosENTENDER ODOMÍNIO EOCONHECIMENTO QUEPODEMOSEXTRAIR
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Qual ahistória dosseus dados?…EASPERGUNTAS QUEQUEREMOS RESPONDER
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Basededados- BMWOs exemplos giram em torno deuma concessionária localdaBMWecomo ela pode aumentar asvendas.
Aconcessionária armazenou todas suas informações devendas passadas einformações arespeito decada pessoaque:
comprou uma BMW
olhou uma BMW
procurou algo nosalão deexposição daBMW.
Aconcessionária quer aumentar suas vendas futuras eempregarmineração dedadosparaconseguir isso.
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Comopodemos extrair esseconhecimento?
VAMOSVERUMPOUCOSOBREQUAISMÉTODOSVAMOSAPLICAR...
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Regressão
◦ Determinar quanto aspessoas pagaram pelos carros anteriores daconcessionária,baseando-senos atributos ecaracterísticas devendas doscarros vendidos.
O modelo permitiria queaconcessionária daBMWinserisseos novos atributos docarro paradeterminar opreço.
"Quanto deveríamos cobrar pelanovaBMWM5?”
Ummodelo deregressão usaria dadosdevendas passadas sobre BMWseM5s
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Classificação
Qual aprobabilidade deuma pessoa Xcomprar omais novomodelo BMWM5?
Criando uma árvore declassificação,os dadospodemser minerados paradeterminar aprobabilidade deessapessoa comprar umnovoM5.
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Clusterização
Comparar a idade dos compradores prévios decarros e as cores que eles compraram no passado.A partir desses dados, é possível encontrar se certasfaixas estão mais propensas a comprar um certotipo de cor da BMWM5.
Quefaixa etária gosta daBMWM5dacor prata?
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
ClusterizaçãoENCONTRANDOGRUPOS EMSEUSDADOS
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Oqueé?
oMétodo quepermite queumusuário faça grupos dedadosparadeterminar padrões apartir dosdados.o Umbenefício decisivo doarmazenamento em clustersobre aclassificação é quecada atributo noconjunto dedadosserá usadoparaanalisar os dados.o Umagravedesvantagem deusar oarmazenamento em clusteréqueousuário necessita saberdeantemão quantos grupos elegostaria decriar
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Visão matemática§ Cada atributo nesse conjunto de dados deve ser normalizado, pelo qual cada
valor é dividido pela diferença entre o valor alto e o valor baixo no
conjunto de dados para esse atributo.
§ Por exemplo, se o atributo for idade e o valor mais alto for 72 e o valor mais
baixo for 16, então, a idade 32 deve ser normalizada para 0,5714.
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Visão matemática§ Dado o número de clusters desejados, selecione, demaneira aleatória, esse número de amostras do conjuntode dados para servir como nossos centros iniciais de testede clusters.
§ Por exemplo, caso deseje ter três clusters, vocêselecionaria, de maneira aleatória, três linhas de dados doconjunto de dados.
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Visão matemática• Calcule a distância de cada amostra de dados até o centrodo cluster (ou linha de dados selecionada aleatoriamente), usandoo método de cálculo de distância dos mínimos quadrados.
• Atribua cada linha de dados a um cluster, baseando-se nadistância mínima até cada centro do cluster.
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Visão matemática• Calcule ocentroide, queé amédia decada coluna dedadosusando somente os membros decada cluster.• Calcule adistância decada amostra dedadosaté os centroidesrecém-criados.•Seos clustersemembros declusternão mudarem,você terminoueos clustersestão criados.•Caso eles mudem,é necessário começar novamente voltando àetapa 3econtinuando novamente até queos clustersnão sejammodificados.
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Vamos lá:Passo-a-Passoo Carregue oarquivo dedadosnoWEKAusando asmesmas etapas queusamos paracarregardadosna guia Preprocess
Vamos lá:Passo-a-PassooNaguia Cluster,cliqueem Choose eselecione SimpleKMeans apartir dasopções queaparecem
Interpretando oresultadoCluster0
Grupo de"Sonhadores",eles andam pela
concessionária,masdiminui noquediz
respeito aentrar na concessionária e,opior
detudo,eles não compram nada.
Atributos Cluster0
Dealership 0.9615
Showroom 0.6923
ComputerSearch 0.6538
M5 0.4615
3Series 0.3846
Z4 0.5385
Financing 0.4615
Purchase 0
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Interpretando oresultadoCluster1
"Amantes doM5”,pois tendem air
diretamente em direção aos M5,ignorando os
carros 3-serieseoZ4.Não possuem uma alta
taxadecompra.Poderia ser umfoco de
melhoria paraaconcessionária,talvez enviando
mais vendedores paraaseção doM5
Atributos Cluster1
Dealership 0.6667
Showroom 0.6667
ComputerSearch 0
M5 0.963
3Series 0.4444
Z4 0
Financing 0.6296
Purchase 0.5185
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Interpretando oresultadoCluster2
Não são estatisticamente relevantes enão
podemos tirar nenhuma conclusão boadeseu
comportamento
Atributos Cluster2
Dealership 1
Showroom 0
ComputerSearch 1
M5 1
3Series 0.8
Z4 0.8
Financing 0.8
Purchase 0.4
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Interpretando oresultadoCluster3
Sempre acabam comprando umcarro e
sempre acabam financiando-o.Eles andam
pelo estacionamento olhando paraos carros,
então usam apesquisa docomputador
disponível na concessionária.Tendem a
comprar M5sou Z4s(masnunca 3-series)
Atributos Cluster3
Dealership 0.8571
Showroom 0.5714
ComputerSearch 0.8571
M5 0.7143
3Series 0.0714
Z4 0.5714
Financing 1
Purchase 1
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Interpretando oresultadoCluster4
Sempre olham o3-seriesenunca olham parao
M5,queé muito mais caro.Entram diretamente no
salão deexibição,50por cento chegam ao estágio
definanciamento,somente 32por centoacabam
finalizando atransação.
Atributos Cluster4
Dealership 0
Showroom 1
ComputerSearch 0.3214
M5 0
3Series 1
Z4 0.6786
Financing 0.5
Purchase 0.3214
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
AtividadeHORADECOLOCAR SEUS CONHECIMENTOS EM PRÁTICA
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Atividadeo Comuma basededadosomperfils declientes deumbanco,faça aclusterização dosclientes analizando,respectivamente,orisco deconcedercréditos.o Oresultado deve ser umrelatório quemostre oprocesso declusterização realizado eprincipalmente INTERPRETEeEXPLIQUE osresultados,mostrando como esse resultado pode vir aauxiliar atomada dedecisão.oBasededados:https://goo.gl/1ooaYP
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Algumas outras fontes dedados
https://archive.ics.uci.edu/ml/datasets.htmlhttp://snap.stanford.edu/data/index.htmlhttps://www.kaggle.com/datasets
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima
Créditoshttps://www.ibm.com/developerworks/br/opensource/library/os-weka2/
https://mineracaodedados.wordpress.com/
http://hunch.net/?p=3692542
http://en.wikipedia.org/wiki/Regression_analysis
http://weka.wikispaces.com/ARFF+%28book+version%29
http://www.ibm.com/developerworks/forums/dw_forum.jsp?forum=375&cat=5
https://pt.wikipedia.org/wiki/R%C2%B2
https://pt.wikipedia.org/wiki/Qui-quadrado
Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima