Mineração de Dados com Apache Mahout
-
Upload
fabiola-fernandes -
Category
Documents
-
view
489 -
download
0
description
Transcript of Mineração de Dados com Apache Mahout
![Page 1: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/1.jpg)
Área, dia/mês/ano
Mineração de Dadoscom Apache Mahout
P&D – 26/06/2013
by Fabíola Souza Fernandes Pereira
![Page 2: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/2.jpg)
Área, dia/mês/anoThe Financial Times of London (1996)
![Page 3: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/3.jpg)
Área, dia/mês/anoThe Financial Times of London (1996)
![Page 4: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/4.jpg)
Área, dia/mês/anoThe NY Times (2012)
![Page 5: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/5.jpg)
Área, dia/mês/anoThe NY Times (2012)
![Page 6: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/6.jpg)
Área, dia/mês/anoScience Daily (2009)
![Page 7: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/7.jpg)
Área, dia/mês/anoScience Daily (2009)
![Page 8: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/8.jpg)
Área, dia/mês/ano
![Page 9: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/9.jpg)
Área, dia/mês/ano
![Page 10: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/10.jpg)
Área, dia/mês/ano
Roteiro
![Page 11: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/11.jpg)
Área, dia/mês/ano
O que é Mineração de Dados?
(em 6 slides)
![Page 12: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/12.jpg)
Área, dia/mês/ano
![Page 13: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/13.jpg)
Área, dia/mês/ano
KDD (Knowledge Discovery on Databases)
![Page 14: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/14.jpg)
Área, dia/mês/ano
![Page 15: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/15.jpg)
Área, dia/mês/ano
“É a transformação de dados em conhecimento, através da descoberta de padrões”
![Page 16: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/16.jpg)
Área, dia/mês/ano
1960 1970 1980 1990 2000
Coleç
ão d
e Dad
os e
Armaz
enam
ento
SGBDs
Sistem
as d
e BD
Avanç
ados
Min
eraç
ão d
e Dad
os
Nova
Geraç
ão d
e
Sistem
as In
tegr
ados
Histórico
![Page 17: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/17.jpg)
Área, dia/mês/ano
DM é interdisciplinar
![Page 18: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/18.jpg)
Área, dia/mês/ano
Quais tipos de dados são minerados?
![Page 19: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/19.jpg)
Área, dia/mês/ano
Bancos de Dados Relacionais
Análise dos dados de
clientes (idade, salário)
para prever o risco de
crédito para novos clientes
![Page 20: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/20.jpg)
Área, dia/mês/ano
Bancos de Dados Espaciais
Descobrir o comportamento do clima
em áreas montanhosas
![Page 21: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/21.jpg)
Área, dia/mês/ano
Bancos de Dados Temporais
Qual a melhor forma de
renovar o estoque? Quais
produtos para
determinada época do
ano?
![Page 22: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/22.jpg)
Área, dia/mês/ano
Bancos de Dados de Textos
Minerar especificações,
relatórios de erros, tweets, posts, reviews
![Page 23: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/23.jpg)
Área, dia/mês/ano
Bancos de Dados de Áudio, Vídeo e Imagens
Segmentação de imagens
Reconhecimento de fala
![Page 24: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/24.jpg)
Área, dia/mês/ano
“É a transformação de dados em conhecimento, através da descoberta de padrões”
Texto, áudio, imagem, relacionais, temporais,
espaciais, …
Anomalias, grupos, classes, tendências, regras, …
![Page 25: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/25.jpg)
Área, dia/mês/ano
CONHECIMENTO
Meu cliente está ansioso com a vinda da concorrência.
O Coreo está sendo utilizado para trotes.
Este cartão de crédito foi clonado.
![Page 26: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/26.jpg)
Área, dia/mês/ano
Roteiro
![Page 27: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/27.jpg)
Área, dia/mês/ano
Data MiningWeb
Social
HTML
Opiniões/Sentimentos
Vídeos
Áudio
Imagens
Streams
![Page 28: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/28.jpg)
Área, dia/mês/ano
BIG DATA MINING
Social
HTML
Opiniões/Sentimentos
Vídeos
Áudio
Imagens
Streams
![Page 29: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/29.jpg)
Área, dia/mês/ano
Roteiro
![Page 30: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/30.jpg)
Área, dia/mês/ano
O que é o Mahout?O que é o Mahout?
![Page 31: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/31.jpg)
Área, dia/mês/ano
Mahout é um software de “Machine Learning” e Mineração de Dados
![Page 32: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/32.jpg)
Área, dia/mês/ano
Mahout é um software de “Machine Learning” e Mineração de Dados
![Page 33: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/33.jpg)
Área, dia/mês/ano
Mahout é um software de “Machine Learning” e Mineração de Dados
![Page 34: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/34.jpg)
Área, dia/mês/ano
Ficha técnica:
Projeto Apache
Open Source
Última versão: 0.7
API Java
Diversos exemplos prontos
Diversos algoritmos de DM prontos: K-Means, CF, Naïve Bayes, …
![Page 35: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/35.jpg)
Área, dia/mês/ano
Técnicas de Mineração de Dados
RecomendaçãoRecomendação
ClusterizaçãoClusterização
ClassificaçãoClassificação
![Page 36: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/36.jpg)
Área, dia/mês/ano
RecomendaçãoRecomendação
![Page 37: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/37.jpg)
Área, dia/mês/ano
Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo
![Page 38: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/38.jpg)
Área, dia/mês/ano
Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo
![Page 39: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/39.jpg)
Área, dia/mês/ano
ClassificaçãoClassificação
![Page 40: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/40.jpg)
Área, dia/mês/ano
SPAM!!
ClassificaçãoClassificação
![Page 41: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/41.jpg)
Área, dia/mês/ano
SPAM!!
ClassificaçãoClassificação
![Page 42: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/42.jpg)
Área, dia/mês/ano
ClassificaçãoClassificação
![Page 43: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/43.jpg)
Área, dia/mês/ano
ClassificaçãoClassificação
MODELO
Classificador
Amostras Classificadas Banco de
Testes
MODELO COM REGRAS CONFIÁVEIS
![Page 44: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/44.jpg)
Área, dia/mês/ano
Clusterização ou AgrupamentoClusterização ou Agrupamento
![Page 45: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/45.jpg)
Área, dia/mês/ano
Clusterização ou AgrupamentoClusterização ou Agrupamento
![Page 46: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/46.jpg)
Área, dia/mês/ano
Clusterização ou AgrupamentoClusterização ou Agrupamento
??
![Page 47: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/47.jpg)
Área, dia/mês/ano
$MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d $MAHOUT_HOME/examples/temp/enwiki-latest-pages-articles10.xml -o wikipedia/chunks -c 64
$MAHOUT_HOME/bin/mahout trainclassifier -i wikipediainput -o wikipediamodel
$MAHOUT_HOME/bin/mahout testclassifier -m wikipediamodel -d wikipediainput
Na prática…
![Page 48: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/48.jpg)
Área, dia/mês/ano
Roteiro
![Page 49: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/49.jpg)
Área, dia/mês/ano
PoC Mahout
Objetivo: separar textos em SPAM ou NÃO SPAM
Tipos de dados: texto
Técnica: classificação
Algoritmo: Naïve Bayes
Base: 20news group (spamassassin.apache.org/publiccorpus/20021010_spam.tar.bz2)
3050 arquivos
![Page 50: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/50.jpg)
Área, dia/mês/ano
Roteiro
![Page 51: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/51.jpg)
Área, dia/mês/ano
Inserir mineração de dados e machine learning no BI da
empresa
Minerar dados reais
![Page 52: Mineração de Dados com Apache Mahout](https://reader035.fdocumentos.tips/reader035/viewer/2022081602/5561875ad8b42a71658b487e/html5/thumbnails/52.jpg)
Área, dia/mês/ano
Obrigada