Mineração de Dados: Conceitos e Aplicações por: Ronnie Alves ([email protected])
Jiawei Han, Micheline Kamber, and Jian Pei
University of Illinois at Urbana-Champaign &
Simon Fraser University
©2011 Han, Kamber & Pei. All rights reserved.
Adaptação slides:
http://www.inf.ufrgs.br/~ralves
November 4, 11 1 Mineração de Dados -- Ronnie Alves
Mineração de Dados: Conceitos e Aplicações por: Ronnie Alves ([email protected])
Parte 1 – Visão Geral da Área Parte 2 – Lidando com BIG DATA! Parte 3 – Mineração de Dados Biológicos
November 4, 11 2 Mineração de Dados -- Ronnie Alves
Big Data!
966 exabytes: esta é a quantidade de dados que trafegarão na internet em 2015 Pesquisa da Cisco aponta que o tráfego na rede
quadruplicará em quatro anos, com a América Latina liderando o crescimento
1 exabyte = 1 milhão de terabytes, ou 1 bilhão de gigabytes, ou cerca de 250 milhões de DVDs
November 4, 11 3 Mineração de Dados -- Ronnie Alves
Big Prize!
11/4/11 Mineração de Dados -- Ronnie Alves 4
http://www.kaggle.com/
Mineração de Dados
Crescimento exponencial dos dados: de terabytes a exabytes
Coleção e disponibilidade dos dados
Ferramentas automatizadas para coleta de dados, banco de
dados, Web, sociedade computadorizada
Fontes abundantes de dados
Negócio: Web, e-commerce, transações, ações, …
Ciência: Sensores, bioinformática, simulação científica, …
Sociedade: Jornais, câmeras digitais, filmadoras, YouTube
Dados em abundância, mas o conhecimento é raro!
“Necessity is the mother of invention”—Mineração de Dados—Análise
automatizada de grandes quantidades de dados
November 4, 11 5 Mineração de Dados -- Ronnie Alves
Evolução das Ciências
..1600, ciência empírica 1600-1950s, ciência teórica
1950s-1990s, ciência computacional 1990-now, ciência dos dados
Dilúvio de dados oriundos de experimentos científicos
Abilidade econômica para lidar com dados na ordem de petabytes
Internet, Cloud computing, Grids,…
Jim Gray and Alex Szalay, The World Wide Telescope: An Archetype for Online Science, Comm. ACM, 45(11): 50-54, Nov. 2002
November 4, 11 6 Mineração de Dados -- Ronnie Alves
Evolução dos Bancos de Dados
1960s: Coleção de dados, criação de dados, DBMS
1970s: Modelo de dados relacional
1980s: RDBMS, modelos avançados (extended-relational, OO, deductive, etc.)
Orientados a aplicação (spatial, scientific, engineering, etc.)
1990s: Mineração de dados, data warehousing, banco de dados multimídia, Web,
Científicos
2000s Stream data management and mining
Mineração de dados e suas aplicações
Web (XML, integração de dados) e sistemas de informação globais
November 4, 11 7 Mineração de Dados -- Ronnie Alves
O que é Mineração de dados?
Data mining (knowledge discovery from data) Extração de padrões ou conhecimento (não-trivial, implícito,
desconhecido e potencialmente útil) a partir de uma grande coleção de dados
Data mining: a misnomer?
Nominações alternativas Knowledge discovery (mining) in databases (KDD), knowledge
extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc.
Cuidado: então TUDO é “data mining”? Busca simples e processamento de consultas (SQL)
November 4, 11 8 Mineração de Dados -- Ronnie Alves
Processo de KDD
Visão típica da comunidade de BD Mineração tem um papel chave no
processo de KDD
Data Cleaning
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
November 4, 11 9 Mineração de Dados -- Ronnie Alves
Exemplo: Mineração da Web
Quais são as tarefas? Data cleaning Integração de dados (múltiplas fontes)
Warehousing Data cubing
Seleção de dados para mineração
Mineração de dados
Apresentação/Visualização dos dados
Padrões armazenados num knowledge-base
November 4, 11 10 Mineração de Dados -- Ronnie Alves
index.html
A B
C D
E
A D Obs.:
Rules: A E D
A D F
A B D F
A D
D X
(conf: 0,8)
(conf: 0,7)
(conf: 0,6)
(conf: 0,5)
(conf: 0,4)
Recommendations (top 2):
F
X
(0,6)
(0,4)
click stream
Exemplo: Mineração da Web
November 4, 11 11 Mineração de Dados -- Ronnie Alves
Mineração em Business Intelligence
Increasing potential to support business decisions End User
Business Analyst
Data Analyst
DBA
Decision Making
Data Presentation Visualization Techniques
Data Mining Information Discovery
Data Exploration Statistical Summary, Querying, and Reporting
Data Preprocessing/Integration, Data Warehouses
Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems
November 4, 11 12 Mineração de Dados -- Ronnie Alves
Processo KDD: Visão Machine Learning
Input Data Data Mining
Data Pre-Processing
Post-Processing
Data integration Normalization Feature selection Dimension reduction
Pattern discovery Association & correlation Classification Clustering Outlier analysis … … … …
Pattern evaluation Pattern selection Pattern interpretation Pattern visualization
November 4, 11 13 Mineração de Dados -- Ronnie Alves
Exemplo: Mineração de dados clínicos
Health care & medical data mining – frequentemente adota uma abordagem ML
Pré-processamento (incluindo seleção de features e redução da dimensionalidade)
Classificação ou/e agrupamentos
Pós-processamento - Visualização
November 4, 11 14 Mineração de Dados -- Ronnie Alves
Visão Multidimensional
Dado a ser minerado BDs (extended-relational, object-oriented, heterogeneous, legacy),
data warehouse, transactional data, stream, spatiotemporal, time-series, sequence, text and web, multi-media, graphs & social and information networks
Conhecimento a ser minerado (ou: Funções de Mineração) Caracterização, discriminação, associação, classificação,
agrupamentos, tendências/desvios, outlier analysis, etc. Descritivo vs. preditivo Múltiplo/funções integradas e mineração em vários níveis
Técnicas utilizadas Data-intensive, data warehouse (OLAP), machine learning, statistics,
reconhecimento de padrões, visualização, high-performance, etc. Aplicações
Varejo, telecom, bancos, fraude, bio-data mining, ações, text mining, Web mining, etc.
November 4, 11 15 Mineração de Dados -- Ronnie Alves
Mineração: Em que tipo de dados?
Aplicações tradicionais, SGBDs
Relacional, data warehouse, transacional
Aplicações avançadas
Data streams e sensores
Séries temporais, sequências (incl. bio-sequences)
Dados estruturados, grafos, redes sociais e multi-linked data
SGBD objeto-relacional
SGBD legados
Espaciais e espaço temporais
Multimídia
Texto
WWW
November 4, 11 16 Mineração de Dados -- Ronnie Alves
Função de Mineração: (1) Generalização
Integração e construção de DWs
Data cleaning, transformação, integração, e modelagem multidimensional
Data cubing
Métodos escaláveis (i.e., materialização) agregados multidimensionais
OLAP (online analytical processing)
Multidimensional concept description: Caracterização e discriminação
Generalizar, sumariar, e contrastar características dos dados, ex., seco vs. molhado (região)
November 4, 11 17 Mineração de Dados -- Ronnie Alves
Função de Mineração: (1) Generalização
November 4, 11 18 Mineração de Dados -- Ronnie Alves
all cube
dimensions cells
Bottom-up Top-down
Função de Mineração: (2) Associação e Correlação
Padrões frequentes (or itemsets frequentes)
Quais items são comprados com que frequência num supermercado?
Associação, correlação vs. causalidade
Uma regra clássica de associação
Diaper Beer [0.5%, 75%] (support, confidence) Forte associação significa forte correlação?
Como minerar estes tipos de padrões de forma eficiente?
Como utilizar estes padrões para outros tipos de análise, ex., classificação, agrupamentos…outras aplicações?
November 4, 11 19 Mineração de Dados -- Ronnie Alves
Sta$s$calsignificance
Biologicalrelevance
20
gene‐to‐targetgene‐to‐gene 21
Função de Mineração: (3) Classificação
Classificação, predição de classes
Construir modelos (funções) como base em casos de exemplo
Descrever e diferenciar classes ou conceitos para predição futura
Ex., classificar pacientes com base no (perfil clínico), or classificar modelos de carros com base nas características
Predizer uma classe desconhecida
Técnicas clássicas
Árvores de decisão, modelos bayesianos, support vector machines (SVM), redes neurais, classificação com base em regras, classificação com base em padrões, modelos de regressão, …
Aplicações
Detecção de fraudes, marketing direto, classificar estrelas, estágios doenças, páginas webs, …
November 4, 11 22 Mineração de Dados -- Ronnie Alves
Critérios: 1-Seleção 2-Parada 3-Classe
24
Classificação via SVM
Vetores de suporte
Margem pequena Margen grande
November 4, 11 Mineração de Dados -- Ronnie Alves
IRIS dataset
Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.1 3.5 1.4 0.2 2 4.9 3.0 1.4 0.2 3 4.7 3.2 1.3 0.2 4 4.6 3.1 1.5 0.2 5 5.0 3.6 1.4 0.2 6 5.4 3.9 1.7 0.4 Species 1 setosa 2 setosa 3 setosa 4 setosa 5 setosa 6 setosa
Classe setosa versicolor virginica 50 50 50
November 4, 11 25 Mineração de Dados -- Ronnie Alves
SVM ideal – IRIS dataset
November 4, 11 26 Mineração de Dados -- Ronnie Alves
Exemplo SVM: Estágios Câncer
Matrix confusão
[1] "Confusion matrix" Classes rawPred3 Blue Green Pink Blue 7 0 2 Green 0 4 0 Pink 7 1 19
“boa” precisão!
[1] "Accuracy" $diag [1] 0.75
$kappa [1] 0.5490417
$rand [1] 0.6615385
$crand [1] 0.3241301
27 November 4, 11 Mineração de Dados -- Ronnie Alves
Exemplo SVM: Estágios Câncer
Fronteiras de decisão (SVM):
Green/Blue Green/Pink Blue/Pink CTR1 -0.7787868 -0.9786317 -0.594154347 CTR2 1.0000748 0.1763757 0.072577609 CTR3 0.9419003 0.9997077 0.606152507 CTR4 1.0002048 0.9994451 0.406974675 CTR5 0.3025673 0.6752318 0.779507524 GBM1 -1.2456031 -0.7679936 -0.616816974 GBM2 -0.9999810 -2.0731869 -0.222945787 GBM3 -0.7094478 -0.8122750 -0.679318857 GBM4 -1.8236925 -1.0429250 1.000364004 GBM5 -1.6827481 -1.6305349 -1.151401027 …
Predição vs classe original: rawPred3 labelClasses CTR1 Pink Green CTR2 Green Green CTR3 Green Green CTR4 Green Green CTR5 Green Green GBM1 Pink Blue GBM2 Pink Blue GBM3 Pink Blue GBM4 Blue Blue GBM5 Pink Blue …
28 November 4, 11 Mineração de Dados -- Ronnie Alves
Função de Mineração: (4) Agrupamentos
Aprendizado não supervisionado (classe desconhecida)
Agrupamentos formam novas categorias (i.e., clusters), ex., agrupar clientes segundo perfil de consumo
Princípio: Maximizar similariedade dos elementos no grupo & minimizar similariedade entre elementos de grupos distintos
Uma gama diversificada de métodos Clustering hierárquico, k-means, k-medoids, SOM, etc…
November 4, 11 29 Mineração de Dados -- Ronnie Alves
Clustering Hierárquico
n genes en n clusters
n genes en 1 cluster
divisive
aggl
omer
ativ
e
Junta-se (ou se divide) os nós com base na noção de similaridade máxima ou mínima.
Distância
Euclideana Correlação de
Pearson
Source: J-Express Manual
November 4, 11 30 Mineração de Dados -- Ronnie Alves
Heatmap Scale
31
Função de Mineração: (4) Agrupamentos
Agrupa pacientes
Agrupa genes
November 4, 11 Mineração de Dados -- Ronnie Alves
Função de Mineração: (5) Outliers
Análise de padrões desviantes
Outlier: Uma observação que não segue o padrão geral de comportamento dentro do conjunto de dados observados
Ruído ou exceção? ― O que pode ser “lixo” para uma pessoa pode ser um “tesouro” para outra…
Métodos: resultantes de aplicações de clustering ou análise de regressão, …
Bastante usado para detectar casos de fraude, eventos raros
November 4, 11 32 Mineração de Dados -- Ronnie Alves
Projeto FRATELO Agrupamentos dinâmicos
Residual dos quadrados mínimos ~ 8 clusters
(+)
(-)
(+)
November 4, 11 33
Mineração de Dados -- Ronnie Alves
Potenciais casos de FRAUDE
969843678 Seg 2 F 0.886 0.0 Ter 8 V 0.829 8.91 (A) Qua 5 V 0.871 -0.54 Sab 6 V 0.939 -7.75
969660610 Seg 1 F 0.895 0.0 Ter 8 V 0.84 8.86 (A) Qua 7 V 0.863 2.29 Sab 3 V 0.929 -7.5
969892861 Seg 8 F 0.87 0.0 Ter 8 F 0.821 5.6 Qua 8 F 0.897 -9.31 (A) Sab 7 V 0.946 -4.98
969777979 Seg 6 F 0.878 0.0 Ter 8 V 0.814 8.39 (A) Qua 8 F 0.811 0.31 Sab 3 V 0.927 -13.83 (A)
969847283 Seg 3 F 0.888 0.0 Ter 6 V 0.832 8.5 (A) Qua 5 V 0.864 -0.73 Sab 7 V 0.928 -7.4
969654530 Seg 3 F 0.896 0.0 Ter 2 V 0.821 8.53 (A) Qua 8 V 0.781 8.89 (A) Sab 2 V 0.928 -18.21 (A)
8 (11.4)
6 (6.7)
5 (4.5)
7 (3.2)
1 (2.7)
4 (2.2)
2 (1.6)
3 (1.2)
Clusters by number of calls
Day, Cluster, Migrating, Absolute Distance, Relative Distance
Increasing number of calls = may be FRAUD
November 4, 11 34 Mineração de Dados -- Ronnie Alves
Potenciais casos de Churn
969729940 Seg 7 F 0.853 0.0 Ter 8 V 0.893 4.23 Qua 6 V 0.842 8.18 (A) Sab 6 F 0.934 -10.96
969902910 Seg 8 F 0.881 0.0 Ter 7 V 0.865 8.44 (A) Qua 6 V 0.84 4.99 Sab 5 V 0.935 -11.27
969990853 Ter 4 F 0.902 0.0 Qua 2 V 0.856 8.1 (A) Sab 2 F 0.927 -8.26
969855539 Seg 6 F 0.86 0.0 Ter 8 V 0.874 3.16 Qua 7 V 0.859 8.04 (A) Sab 7 F 0.932 -8.48
969657285 Seg 5 F 0.941 0.0 Ter 5 F 0.94 0.1 Qua 3 V 0.862 9.04 (A) Sab 3 F 0.939 -8.94
969757484 Ter 5 F 0.908 0.0 Qua 2 V 0.844 11.25 (A) Sab 2 F 0.925 -9.62
8 (11.4)
6 (6.7)
5 (4.5)
7 (3.2)
1 (2.7)
4 (2.2)
2 (1.6)
3 (1.2)
Clusters by number of calls
Decreasing number of calls = may be CHURN
Day, Cluster, Migrating, Absolute Distance, Relative Distance
November 4, 11 35 Mineração de Dados -- Ronnie Alves
Tempo e Ordem: Padrões sequenciais, tendências e análise de evoluções
Sequência, tendência e evolução Tendência, série-temporal, e padrões desviantes: ex.,
regressão e predição Mineração de padrões sequenciais
Ex., primeiro compra uma câmera, então compra um cartão de memória SD
Análise de periodicidade Pesquisa de motivos em sequências
Aproximação, motivos consecutivos Análise com base em similariedades
Mineração de streams de dados Ordenados, temporais, infinitos, data streams
November 4, 11 36 Mineração de Dados -- Ronnie Alves
Análise de Periodicidades
[YNL082W] -> [YLR151C] (confidence: 0.957)
[YLR151C] -> [YNL082W] (confidence: 0.957)
[YNL082W] -> [YFR002W] (confidence: 0.957)
[YFR002W] -> [YNL082W] (confidence: 0.957)
[YCR042C] -> [YNL082W] (confidence: 0.957)
[YLR151C] -> [YFR002W] (confidence: 0.957)
[YFR002W] -> [YLR151C] (confidence: 0.957)
[YNL082W] -> [YCR042C] (confidence: 1.000)
cell cycles yeast association patterns
from t15 (cdc15 – 180min) –[down]> t16(cdc15 – 190min) –[up]> t17(cdc15 – 200min) significant changes
co-regulated gene profiles 1. gene interactions 2. tagging time frames 3. grouping patterns
November 4, 11 37 Mineração de Dados -- Ronnie Alves
Análise de Redes (Grafos)
Mineração de Grafos Buscar sub-grafos frequentes (ex, componentes químicos), árvores
(XML), sub-estruturas (fragmentos web) Análise de Redes de Informação
Redes sociais: atores (vértices) e relacionamentos (arestas) ex, autores em MD, redes terroristas
Múltiplas redes Uma pessoa participa de diferentes redes: amigos, familiares,
colegas de classes, … Links carregam a semântica da relação: Link mining
Mineração da Web Web: do PageRank ao Google Análise da Web
Comunidades, opiniões, utilização, …
November 4, 11 38 Mineração de Dados -- Ronnie Alves
• Hi
Análise de Redes (Grafos)
Do experimento transcriptômico A rede de co-expressão gênica
November 4, 11 39 Mineração de Dados -- Ronnie Alves
GSE13270
PRKAA2, KRAS, PDPK1
CBLB,…
MOBIO: Cliques consensuais em Diabetes T2
40 November 4, 11 Mineração de Dados -- Ronnie Alves
Avaliação do Conhecimento
São todos os padrões realmente interessantes? Muitos dados >> Muitos Padrões >> ?? conhecimento
Pode ser dimensionalmente relevante (tempo, espaço, …)
Pode não ser representativo, pode ser transiente, …
Avaliação do conhecido gerado → minerar apenas padrões interessantes? Descritivo vs. preditivo
Cobertura
Típico vs. novidade
Precisão
Independente do tempo, espaço,…
… November 4, 11 41 Mineração de Dados -- Ronnie Alves
Mineração de Dados: Multidisciplinar
Data Mining
Machine Learning
Statistics
Applications
Algorithm
Pattern Recognition
High-Performance Computing
Visualization
Database Technology
November 4, 11 42 Mineração de Dados -- Ronnie Alves
Faz sentido todas essas áreas em MD?
Gigantescas montanhas de dados Algoritmos precisam ser escaláveis (exabytes…)
Multidimensionalidade Dados biológicos
Complexidade inerente dos dados Data streams e sensores Séries temporais, dados temporais, sequenciais Grafos, redes e múltiplos links Heterogeneidade SGBDs e legados Espacial, espaço-temporal, multimídia, texto e Web Software, simulações científicas
Aplicações mais sofisticadas
November 4, 11 43 Mineração de Dados -- Ronnie Alves
Aplicações de Mineração de Dados
Web: classificação de páginas, agrupamentos, rankings: PageRank & HITS algorithms
Sistemas de Recomendação
Análise do cesto de compra, perfil de consumo, marketing
Médica e Biológica: classificação, análise de agrupamentos (microarray data analysis), sequências biológicas, biologia de sistemas (genômica, proteômica, transcriptômica, etc…)
Mineração e engenharia de software (e.g., IEEE Computer, Aug. 2009 issue)
Mineração de constelações
Mineração de caminhos, trajetórias…
November 4, 11 44 Mineração de Dados -- Ronnie Alves
Nem tudo são flores… (1)
Metodologia de Mineração
Minerar vários tipos de dados distintos, granularidades…
Conhecimento em espaço multidimensional
Mineração: Esforço constante e multidisciplinar
Boosting the power of discovery
Lidar com ruídos, incerteza, e dados incompletos
Avaliação de padrões, utilização de restrições
Interatividade
Mineração interativa
Incorporação de conhecimento prévio
Apresentação e visualização
November 4, 11 45 Mineração de Dados -- Ronnie Alves
Nem tudo são flores… (2)
Eficiência e escalabilidade dos algoritmos
Paralelo, distribuído, stream, e incrementais
Diversidade
Complexidade na formação dos dados
Impactos na sociedade
Questões sociais de comportamento
Mineração vs Privacidade
Mineração pervasiva
November 4, 11 46 Mineração de Dados -- Ronnie Alves
Onde buscar referências? DBLP, CiteSeer, Google
Data mining and KDD (SIGKDD: CDROM) Conferences: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, etc. Journal: Data Mining and Knowledge Discovery, KDD Explorations, ACM TKDD
Database systems (SIGMOD: ACM SIGMOD Anthology—CD ROM) Conferences: ACM-SIGMOD, ACM-PODS, VLDB, IEEE-ICDE, EDBT, ICDT, DASFAA Journals: IEEE-TKDE, ACM-TODS/TOIS, JIIS, J. ACM, VLDB J., Info. Sys., etc.
AI & Machine Learning Conferences: Machine learning (ML), AAAI, IJCAI, COLT (Learning Theory), CVPR, NIPS, etc. Journals: Machine Learning, Artificial Intelligence, Knowledge and Information Systems,
IEEE-PAMI, etc.
Web and IR Conferences: SIGIR, WWW, CIKM, etc. Journals: WWW: Internet and Web Information Systems,
Statistics Conferences: Joint Stat. Meeting, etc. Journals: Annals of statistics, etc.
Visualization Conference proceedings: CHI, ACM-SIGGraph, etc. Journals: IEEE Trans. visualization and computer graphics, etc.
November 4, 11 47 Mineração de Dados -- Ronnie Alves
Resumo
Mineração: Descoberta de padrões interessantes e conhecimento a partir de grandes quantidades de dados
Evolução natural das mais diversas tecnologias, grande demanda, com uma imensa abrangência
Processo de KDD: limpeza, integração, seleção, transformação, mineração, avaliação, e representação do conhecimento
Mineração pode ser aplicada numa gama diversa de dados
Funcionalidades: caracterização, discriminação, associação, classificação, agrupamentos, outliers, tendências, etc.
Mineração orientada a aplicação (contexto de uso)
Existem diversas questões em aberto…
November 4, 11 48 Mineração de Dados -- Ronnie Alves
Referências S. Chakrabarti. Mining the Web: Statistical Analysis of Hypertex and Semi-Structured Data. Morgan
Kaufmann, 2002
R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2ed., Wiley-Interscience, 2000
T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003
U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996
U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann, 2001
J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 3rd ed., 2011
D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001
T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd ed., Springer-Verlag, 2009
B. Liu, Web Data Mining, Springer 2006.
T. M. Mitchell, Machine Learning, McGraw Hill, 1997
G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991
P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005
S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998
I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 2nd ed. 2005
November 4, 11 49 Mineração de Dados -- Ronnie Alves
Mineração de Dados: Conceitos e Aplicações por: Ronnie Alves ([email protected])
Parte 1 – Visão Geral da Área Parte 2 – Lidando com BIG DATA! Parte 3 – Mineração de Dados Biológicos
November 4, 11 50 Mineração de Dados -- Ronnie Alves
Era de Ouro!
Powerful multi-core processors
General purpose graphic
processors
Superior software
methodologies
Virtualization leveraging
the powerful hardware
Wider bandwidth for
communication
Proliferation of devices
Explosion of domain
applications
November 4, 11 51 Mineração de Dados -- Ronnie Alves
Alinhar necessidades do negócio / utilizador / especialistas / comunidade e sociedade
Questões de escalabilidade: BIG DATA, computação de alta performance, automação, tempo de resposta, prototipação rápida, produção
Transformar dados de diversas fontes em inteligência e compartilha-la na direção certa pessoa/utilizador/sistemas
Baixo custo!
November 4, 11 52 Mineração de Dados -- Ronnie Alves
Cloud computing is Internet-based computing, whereby shared resources, software and information are provided to computers and other devices on-demand, like the electricity grid. on-demand computing, utility computing, ubiquitous
computing, autonomic computing, platform computing, edge computing, elastic computing, grid computing, …
November 4, 11 53 Mineração de Dados -- Ronnie Alves
Amazon AWS: EC2 & S3 (among the many infrastructure services) Linux machine Windows machine A three-tier enterprise application
Google app Engine Eclipse plug-in for GAE Development and deployment of an application
Windows Azure Storage: blob store/container MS Visual Studio Azure development and production
environment
November 4, 11 54 Mineração de Dados -- Ronnie Alves
Mineração em grandes quantidades de dados em diversas áreas científicas, astronomia, genômica
Economia baseada no conhecimento Dados, importantes para a sobrevivência do negócio Descobrir o conhecimento, utilizar o conhecimento; Anotações… Modelos computacionais mais complexos Um ambiente simples computational não é suficiente: need elastic,
on-demand capacities Extrema necessidade
Modelos de programação, e Algoritmos e estrutura de dados
November 4, 11 55 Mineração de Dados -- Ronnie Alves
Internet introduziu um novo desafio na forma de web logs, dados de web crawlers: large scale “peta scale”
Estes dados tem uma característica única: “write once read many (WORM)” ;
• Informações em sistemas de saúde sobre pacientes • Histórico financeiro; • Dados históricos…
Google explorou estas características no seu Google file system (GFS)
November 4, 11 56 Mineração de Dados -- Ronnie Alves
MapReduce
November 4, 11 57 Mineração de Dados -- Ronnie Alves
No Google a operação de MapReduce rodam no Google File System (GFS) que é otimizado para esse propósito
GFS não é open source Doug Cutting e outros na Yahoo! trabalharam na
engenharia reversa do GFS e criaram o Hadoop Distributed File System (HDFS).
Todo suporte de software via HDFS, MapReduce e outras entidades relacionadas compõem o project Hadoop ou apenas Hadoop.
Hadoop é open source via Apache. Tolerância a falhas está no core do Hadoop.
November 4, 11 58 Mineração de Dados -- Ronnie Alves
MapReduce é um modelo de programação criado no Google, e tem sido usado com sucesso para processar “big-data” sets (~ 20000 peta bytes per day) Uma função “map” extrai inteligência do dado cru. Uma função “reduce” realiza agregação dos dados obtidos na etapa
de mapeamento. Todo problema é mapeado segundo a programação Map->Reduce Paralelização automatizada via clusters Tolerância a falhas, comunicação tratada de forma transparente
-- Reference: Dean, J. and Ghemawat, S. 2008. MapReduce: simplified data processing on large clusters. Communication of ACM 51, 1 (Jan. 2008), 107-113.
November 4, 11 59 Mineração de Dados -- Ronnie Alves
Benchmark for comparing: Jim Gray’s challenge on data-intensive computing. Ex: “Sort”
Google utiliza para wordcount, adwords, pagerank, indexing data.
Algoritmos de busca textual como grep, text-indexing, reverse indexing
Classificação bayesiana: mineração de dados Facebook usa em várias operações: dados demográficos Serviços financeiros balanços analíticos Astronomia: Análise Gaussiana para localizar objetos em galaxias
distantes. É esperado um papel crítico de MapReduce na web semântica e
web 3.0…aplicações massivas de dados
November 4, 11 60 Mineração de Dados -- Ronnie Alves
Mineração de Dados a la MapReduce
Fitness, Summation form... locally weighted linear regression (LWLR), k-means, logistic regression(LR), naive Bayes (NB), SVM, ICA, PCA, gaussian discriminant analysis (GDA), EM, and
backpropagation (NN).
Map-Reduce for Machine Learning on Multicore By Chu et al. (NIPS’2006)
November 4, 11 61 Mineração de Dados -- Ronnie Alves
MapReduce precisa de um DFS e um engine que possa distribuir, coordenar, monitorar e coletar os resultados.
Hadoop fornece essa engine e JobTracker + TaskTracker system.
JobTracker é um escalonador. TaskTracker controla um Map ou Reduce (ou
outras operações); Map ou Reduce rodar no nó e assim como o TaskTracker; cada tarefa roda na sua própria JVM do nó.
November 4, 11 62 Mineração de Dados -- Ronnie Alves
Referências
Jeffrey Dean and Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large
Clusters http://labs.google.com/papers/mapreduce.html
Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung, The Google File System
http://labs.google.com/papers/gfs.html
November 4, 11 63 Mineração de Dados -- Ronnie Alves
Mineração de Dados: Conceitos e Aplicações por: Ronnie Alves ([email protected])
Parte 1 – Visão Geral da Área Parte 2 – Lidando com BIG DATA! Parte 3 – Mineração de Dados Biológicos
November 4, 11 64 Mineração de Dados -- Ronnie Alves
Adaptação dos tutoriais produzidos por: (1) Steffen Durinck, Robert Gentleman and
Sandrine Dudoit (2) Laurent Gautier (3) Matt Ritchie (4) Jean Yang
http://www.bioconductor.org/help/course-materials/
November 4, 11 65 Mineração de Dados -- Ronnie Alves
Bioconductor
Bioconductor é uma plataforma open source/open development de software para a análise de dados bioquímicos e genômicos.
O projeto teve início no outono de 2001, abrange mais de 25 core developers nos US, Europe, and Australia.
Releases v 1.0: May 2nd, 2002, 15 packages. v 1.1: November 18th, 2002, 20 packages. v 1.2: May 28th, 2003, 30 packages. v 1.9: October 4, 2006, 188 packages. …………………………..
Bioconductor 2.6, April 23, 2010, 389 packages.
Bioconductor 2.8, Outubro 2011, 460 packages
November 4, 11 66 Mineração de Dados -- Ronnie Alves
Mineração de dados transcriptômicos em R
CEL, CDF
affy vsn
.gpr, .Spot, MAGEML
Pré-processamento
exprSet
graph RBGL
Rgraphviz
edd samr
genefilter limma
multtest ROC
+ CRAN
annotate annaffy
+ metadata packages
CRAN class
cluster MASS mva
gplots geneplotter
hexbin + CRAN
marray limma vsn
Diferenciação de Expressão
Biologia de Sistemas
Clustering Annotação
CRAN class e1071 ipred
LogitBoost MASS nnet
randomForest rpart
Classificação/ Predição
Gráficos
estrogen AMLL
Dados
RNAseq
baySeq DEGseq DESeq edgeR
reads
November 4, 11 67 Mineração de Dados -- Ronnie Alves
Instalação
1. R software: CRAN (cran.r-project.org) 2. Bioconductor packages: Bioconductor site
(www.bioconductor.org)
Disponível para as plataformas Linux/Unix, Windows, e Mac OS.
November 4, 11 68 Mineração de Dados -- Ronnie Alves
Instalação
• Uma vez instalado o R, instalar os pacotes Bioconductor usando a função getBioC.
• No console do R executar source("http://bioconductor.org/biocLite.R") biocLite()
• Geralmente, os pacotes R são instalados a partir da função install.packages.
• Em ambiente Windows/MAC OS, é possível utilizar o menu “Packages” no console do R.
• Em ambiente Linux/UNIX é necessário instalar ferramentas adicionais para utilizar uma console R
– Sugestões: RStudio, Eclipse+StatET
November 4, 11 69 Mineração de Dados -- Ronnie Alves
Bioconductor na NUVEM... (1) Bioconductor-AMI: We have developed an
Amazon Machine Image (AMI) that is optimized for running Bioconductor in the Amazon Elastic Compute Cloud (or EC2) for sequencing tasks…
http://www.bioconductor.org/help/bioconductor-cloud-ami/
(2) R-Cloud Workbench: Remote access to R/Bioconductor on EBI's 64-bit Linux Cluster
http://www.ebi.ac.uk/Tools/rcloud/
November 4, 11 70 Mineração de Dados -- Ronnie Alves
R
RHIPE
Uma interface entre Hadoop e R para analisar BIG DATA Invenção de Saptarshi que trabalha na
Revolution Analytics em Palo Alto…
http://www.lecturemaker.com/2011/02/rhipe/ November 4, 11 71 Mineração de Dados -- Ronnie Alves
Links
R www.r-project.org, cran.r-project.org software (CRAN); documentação; newsletter: R News; mailing list.
Bioconductor www.bioconductor.org software, dados, e documentação (vignettes); Tutoriais e cursos rápidos; mailing list.
November 4, 11 72 Mineração de Dados -- Ronnie Alves
ICDM’10: DM Open Problems!!!
1. Developing a Unifying Theory of Data Mining 2. Scaling Up for High Dimensional Data/High Speed
Streams 3. Mining Sequence Data and Time Series Data 4. Mining Complex Knowledge from Complex Data 5. Data Mining in a Graph Structured Data 6. Distributed Data Mining and Mining Multi-agent Data 7. Data Mining for Biological and Environmental Problems 8. Data-Mining-Process Related Problems 9. Security, Privacy and Data Integrity 10. Dealing with Non-static, Unbalanced and Cost-
sensitive Data
November 4, 11 73 Mineração de Dados -- Ronnie Alves
KDnuggets: Algoritmos
30.Oct.2011
November 4, 11 74
KDnuggets: Linguagens
Aug.2011
November 4, 11 75 Mineração de Dados -- Ronnie Alves
KDnuggets: Ferramentas
May.2011
November 4, 11 76 Mineração de Dados -- Ronnie Alves
KDnuggets: Aplicações
Dec.2009
November 4, 11 77 Mineração de Dados -- Ronnie Alves
R/Bioconductor: Hands-on
http://www.inf.ufrgs.br/~ralves/mtbsb.html November 4, 11 78 Mineração de Dados -- Ronnie Alves
Mineração de Dados: Conceitos e Aplicações por: Ronnie Alves ([email protected])
Jiawei Han, Micheline Kamber, and Jian Pei
University of Illinois at Urbana-Champaign &
Simon Fraser University
©2011 Han, Kamber & Pei. All rights reserved.
Adaptação slides:
http://www.inf.ufrgs.br/~ralves
OBRIGADO!!!!
November 4, 11 79 Mineração de Dados -- Ronnie Alves
Top Related