© NeuroTech 2011
NeuroTech Ltda.www.neurotech.com.br
Metodologia CRISP-DM
© NeuroTech 2011
Conteúdo
Metodologias para Mineração de Dados
A metodologia CRISP-DM
Exemplo de um Projeto de Mineração de Dados
Exercício Prático
© NeuroTech 2011
Gerência de Projetos
Metodologias para documentação de processos de KDD
• Enquadrar KDD como projetos complexos
Projetos
• Início, meio e fim
Todo Projeto
• Inicialização
• Planejamento
• Execução
• Acompanhamento e Controle
• Finalização
© NeuroTech 2011
Gerência de Projetos
Áreas do Conhecimento
• Riscos
• Qualidade
• Aquisição
• Custos
• Tempo
• Recursos Humanos
• Integração
• Escopo
• Comunicação
© NeuroTech 2011
Metodologias para o Processo KDD
1996 – Fayyad et al.
1996 – CRISP-DM
1996 – Brachman et al.
1997 – Klemettinen et al.
1998 – Feldens et al.
2003 – DMLC
2005 – DMEasy
© NeuroTech 2011
1. Iterativo
2. Interativo
3. Organizado em Fases
4. Processos Extras
5. Reuso do Conhecimento
6. Visão de Projeto
7. Levantamento de Requisitos
8. Entendimento do Negócio
Características Desejáveis
Comparações - Metodologias
N= não aborda; M= menciona, mas sem detalhes; A= aborda em detalhes.
Ano Metodol. Iter Inter FaseProces.
Extras
Reuso
Conhec
Visão
Projeto
Levant.
Requis.
Entden
Negóc
1996 Fayyad A M A N N N N N
1996 CRISP-DM A M A N N A M A
1996 Brachman A M A M N N M M
1997 Klemettin A M A N N N N A
1998 Feldens A M A N N N N N
2003 DMLC A M A N M A M A
2005 DMEasy A A A A M A A A
© NeuroTech 2011
Metodologias em Data Mining
Fonte: http://www.kdnuggets.com/polls/
SPSS x SAS CRISP-DM x SEMMA
© NeuroTech 2011
O que é CRISP-DM?
Metodologia padrão não proprietária que identifica as
diferentes fases na implantação de um projeto de data mining
(DMP).
CRISP-DMhttp://www.crisp-dm.org/
CRoss Industry Standard
Process for Data Mining
© NeuroTech 2011
Níveis do CRISP-DM
Phases
Generic Tasks
Specialized
Tasks
Process
Instances
CRISPProcess Model
Mapping
CRISPProcess
© NeuroTech 2011
Metodologia de Trabalho: CRoss-Industry
Standard Process for DM (CRISP-DM)
Entendimento
do Negócio
Entendimento
dos Dados
Preparação
dos Dados
Modelagem
de I.A.
Avaliação de
Desempenho
Implantação
Dados
© NeuroTech 2011
Abordagem Tradicional para
Mineração de Dados
Data
MiningKDDCRISP-DM
Inteligência Artificial (IA)
Tecnologia=BD+Estat.+IA+ADS
Gestão de Projetos + Tecnologia
© NeuroTech 2011
Processo de Descoberta do Conhecimento [Fayyad 96]
Preprocessing
DataSources
TargetData
TransformedData
PreprocessedData
Patterns /Models
Knowledge
Selection
Interpretation/Evaluation
Transformation
Data Mining
2. Business Understanding
3. Data Understanding
4.2 Clean Data
4.1 Select Data
4.3 Construct Data
5. Modeling
6. Evaluation 7. Deployment
© NeuroTech 2011
Exemplo de Projeto Mineração de Dados Utilizando
CRISP-DM: Objetivo do Projeto
Descrever todo o processo de desenvolvimento da solução do
projeto: Mineração de dados para a diagnóstico de falhas.
Apresentar a metodologia de desenvolvimento de soluções
padrão em mineração de dados chamada CRISP-DM
© NeuroTech 2011
Sistema de Telecomunicações da Chesf
© NeuroTech 2011
Fase 1 no projeto de DM
Business Understanding:
• Definição dos objetivos do negócio
- Detectar as falhas do sistema, a partir do histórico das
ocorrências e da condição dos alarmes de sinalização
de problemas nos sistemas.
- Extrair conhecimento dos dados através de regras para
o melhor entendimento das circunstâncias que resultam
em falhas.
• Descrever os critérios de resultados para que o projeto seja considerado um sucesso, assim como a forma de medir.
- Auxílio para a definição de políticas de manutenção
- Uniformidade no padrão de qualidade do serviço (livre de fadiga, stress, desgaste emocional)
- Redução do tempo de resposta às consultas
© NeuroTech 2011
Fase 1 no projeto de DM (cont)
Business Understanding:
• Avaliar situação atual do cliente.
- Recursos Disponíveis
- Dados em um data warehouse (ORACLE)
- Suposições e Restrições
- Alarme Crítico = Falha
- SDH – Alcatel
© NeuroTech 2011
Fase 1 no projeto de DM (cont)
Business Understanding:
• Determinar os riscos
- Demanda do especialista do domínio
- Qualidade dos dados
- Recebimento dos dados
• Determinar tarefas de mineração de dados
- Classificação de padrões
- Regras de classificação
- etc
© NeuroTech 2011
Fase 1 no projeto de DM (cont)
Business Understanding:
• Fazer Plano do Projeto
- Etapa 1:
- Levantamento da situação atual do problema de falhas
- Etapa 2:
- Análise preliminar dos dados sobre as ocorrências de falhas de equipamentos
- Etapa 3:
- Preparação dos dados
- Modelagem dos dados
- Extração de Regras do conhecimento adquirido
- Etapa 4:
- Interação com especialista do domínio
- Homologação dos resultados
- Etapa 5:
- Implantação do protótipo
© NeuroTech 2011
Business
understanding
Data
understanding
Fluxo do Processo: CRISP-DM
© NeuroTech 2011
Fase 2 no projeto de DM
Data Understanding
• Coletar dados iniciais
- Dados referentes aos alarmes na rede de
telecomunicações SDH - Alcatel foram disponibilizados
em arquivos textos mensais nos 14 meses de dez/2001
a jan/2003.
- Junção dos dados em uma única tabela. (ACCESS).
- Apenas 1 ano fev2002 a jan2003
© NeuroTech 2011
Fase 2 no projeto de DM
Data Understanding
• Descrever os dados
- 491.127 alarmes
- 75934 (15,46%) são alarmes críticos (falhas). Campo
NOME DO
CAMPO
1 EQUIPAMENTO
2 ALARME
3 MODULO
4 LOCAL
5 NOME LOCAL
6 GERENCIA
7 SEVERIDA
8 DATAALARME
9 DATANORM
10 ROTA
© NeuroTech 2011
Fase 2 no projeto de DM
Tipo de alarmes Freqüência Percentual
CRITICAL 75934 15,5 %
MAJOR 234780 47,8 %
MINOR 147797 30,1 %
WARNING 32616 6,6 %
Data Understanding
Descrever os dados
• Tabelas
• Gráficos
© NeuroTech 2011
Fase 2 no projeto de DM
- Data Understanding
Verificar qualidade dos dados
• Boa qualidade dos dados
• 0% de missings
• 0% de outliers
© NeuroTech 2011
Business
understanding
Data
understanding
Data
preparation
Fluxo do Processo: CRISP-DM
© NeuroTech 2011
Fase 3 no projeto de DM
Data Preparation:
• Preparar os dados para importação no software de DM.
• Derivar campos calculados (se necessário)
• Integrar bases de dados externas (IBGE, Correios, etc.)
• Limpeza dos dados: outliers e missings.
• Codificar campos em: irrelevante, categórico e numérico.
© NeuroTech 2011
Fase 3 no projeto de DM
Data preparation:
• Campos Calculados:
- QTD WARNING => Quantidade de alarmes warnings
desde o último alarme crítico.
- QTD MAJOR => Quantidade de alarmes major desde o
último alarme crítico
- QTD MINOR => Quantidade de alarmes minor desde o
último alarme crítico
© NeuroTech 2011
Fase 3 no projeto de DM
Data preparation:
• Pré-Processamento:
• 5 (cinco) atributos relevantes
• 3 natureza numérica
- Normalização [0...1]
• 2 natureza categórica
- Transformação 1 de n
• Variável de saída
- ‘WARNING’ para ‘Não-FALHA’
- ‘MINOR’ para ‘Não-FALHA’
- ‘MAJOR’ para ‘Não-FALHA’
- ‘CRITICO’ para ‘FALHA’
© NeuroTech 2011
Business
understanding
Data
understanding
Data
preparation
Modelling
Fluxo do Processo: CRISP-DM
© NeuroTech 2011
Fase 4 no projeto de DM
Modeling:
• Selecionar as técnicas de modelagem
- Redes Neurais
- Regras de Classificação
• Catalogar parâmetros utilizados
- 50% para treinamento,
- 25% para validação
- 25% para teste
• Retornar ao Data Preparation
• Software: NeuralScorer Development Platform
© NeuroTech 2011
Fase 4 no projeto de DM
Modeling:
Rede Neural:
Arquitetura MLP
Algoritmo: Backpropagation
Camadas Escondidas: 1
Neurônios Escondidos: 2, 4, 8 e 20
Taxa de Aprendizado: 0,1, 0,01 e 0,001
Número de iterações: 100, 1000 e 10000
Problema: Diagnóstico de Falhas
Número de Entradas: 16
Número de Saídas 2
Padrões de Treinamento 50%
Padrões de Validação 25%
Padrões de Teste 25%
Regras de Classificação:
Regras com abrangência
maior que 5%
© NeuroTech 2011
Business
understanding
Data
understanding
Data
preparation
Modelling
Evaluation
Fluxo do Processo: CRISP-DM
© NeuroTech 2011
Fase 5 no projeto de DM
Evaluation – Rede Neural:
Falha Alarme Total
Clas.Falha 18011 3563 21574
Clas.Alarme 972 100235 101207
Total 18983 103798 122781
Erro I = 3.4% (Classificar como falha quando na verdade é
apenas alarme).
Erro II = 5.1% (Classificar como alarme quando na verdade
é uma falha).
Erro Geral = 3.7% (classificação errônea)
© NeuroTech 2011
Fase 5 no projeto de DM
Evaluation - Regras de Classificação:
Regras que caracterizam situações de falhas:
SE LOCAL = "XINGO MARGEM ESQUERD"
ENTÃO FALHA EM 41.45%, REPRESENTANDO 6.9% DA MASSA.
SE LOCAL = "ANGELIM (REPETIDORA)"
ENTÃO FALHA EM 38.35%, REPRESENTANDO 8.2% DA MASSA.
SE QTDWARNI = "DE 0 ATÉ 1"
ENTÃO FALHA EM 23.30%, REPRESENTANDO 12% DA MASSA.
© NeuroTech 2011
Fase 5 no projeto de DM
Evaluation - Regras de Classificação:
Regras que caracterizam situações de alarmes:
SE LOCAL = "RECIFE - COS"
ENTÃO FALHA EM 00.95%, REPRESENTANDO 25.54% DA MASSA.
SE LOCAL = "USINA DE SOBRADINHO"
ENTÃO FALHA EM 01.58%, REPRESENTANDO 11.69% DA MASSA.
SE QTDMINOR = "DE 1 ATÉ 2"
ENTÃO FALHA EM 01.63%, REPRESENTANDO 15.60% DA MASSA.
© NeuroTech 2011
Business
understanding
Data
understanding
Data
preparation
Modelling
Evaluation
Deployment
Fluxo do Processo: CRISP-DM
© NeuroTech 2011
Fase 6 no projeto de DM
Entrega do produto do projeto de mineração de dados.
• Software em produção (on-line)
• Software analítico (off-line)
• Relatório com um resumo das etapas do processo
CRISP-DM.
• Treinamento e Apresentação para o Usuário
Deployment
© NeuroTech 2011
Resumo das Ferramentas Utilizadas
Nome Função Fabricante Fase
Excel Planilha MicrosoftAvaliação de desempenho
ORACLE DISCOVERY Data Warehouse ORACLE Entendendo os dados
Access Banco de Dados Microsoft Entendendo os dados
Word Editor de texto Microsoft Entendendo o negócio
OxeditManipulação de grandes
arquivos texto.OX Entendendo os dados
NeuralScorerMineração de Dados +Manipulação de dados
NeuroTechModelagem + Preparaçãodos dados
SPSS Manipulação de dados SPSS Preparação dos dados
© NeuroTech 2011
Resumo das Potenciais Ferramentas
Business Understanding
• Ferramentas para Gerenciamento de Processos
- Microsoft Visio
- Popkin
• Editores de Texto
- Microsoft Word
- Tex
- Acrobat Writer
• Ferramentas para Planejamento de projetos
- Project
- Primavera
© NeuroTech 2011
Resumo das Potenciais Ferramentas
Data Understanding e Data Preparation
• Banco de Dados
- SQL Server
- Oracle
• Ferramentas de estatística
- SPSS
- STATISTICA
- SAS
- MINITAB
• Planilhas Eletrônicas
- Excel
© NeuroTech 2011
Resumo das Potenciais Ferramentas
Modeling e Evaluation
• Ferramentas Estatísticas
- SPSS, R-PROJECT, SAS, MINITAB, etc.
• Ferramentas de Inteligência Artificial
- Weka
- Tanagra
- Clementine (SPSS)
- Intelligent Miner (IBM)
- Enterprise Miner (SAS)
- Matlab
• Planilhas Eletrônicas
- Excel
© NeuroTech 2011
Resumo das Potenciais Ferramentas
Deployment
• Ferramentas para Gerenciamento de Processos
- Microsoft Visio
- Popkin
• Editores de Texto
- Microsoft Word
- Tex
- Acrobat Writer
• Desenvolvimento de Software Específico
• Banco de Dados
© NeuroTech 2011
Conclusões
Necessidade de uma ferramenta de mineração de
dados completa.
Apresentação metodologia CRISP-DM em um problema
prático de mineração de dados.
• Formalização
• Replicação
Bom poder de classificação da rede neural (poderia
ser colocado em produção)
Regras extraem conhecimento para tomada de
decisão do especialista (off-line).
© NeuroTech 2011
Referências Bibliográficas
Han, J., Kamber M. (2006) Data Mining: Concepts and techniques.
Morgan Kaufman Publishers, San Francisco, CA.
Witten, I., Frank, E. (2005) Data Mining: Pratical Machine Learning
Tools and Techniques with Java Implementations. San Diego,
California: Academic Press.
FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data
mining to knowledge discovery: An overview : in Fayyad, Piatetsky-
Shapiro, Smyth and Uthurusamy, 1996.
REINARTZ, T.; WIRTH, R.; CLINTON, J.; KHABAZA, T.; HEJLESEN,
J.; CHAPMAN, P.; KERBER, R. The current CRISP-DM process model
for data mining. Berlin: Technical University., 1998.
Página do CRISP-DM – www.crisp-dm.org
© NeuroTech 2011
Tarefas de Data Mining
Descrição e Sumarização dos Dados
• Tabelas, Gráficos, Consultas OLAP
Segmentação ou Agrupamento
• Clustering, Redes Neurais, Visualização
Regressão
• Redes Neurais, Análise de Regressão, Séries Temporais,etc
Classificação
• Análise Discriminante, Redes Neurais, Árvore de Decisão, etc
Extração de regras ou Descrição
• Regras de Classificação, Regras de Associação
Análise de Dependência
• Análise de Correlação
• Técnicas de Visualização
Top Related