Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki...

38
Descoberta de Descoberta de Conhecimento em Bases Conhecimento em Bases de Dados de Dados e Mineração de Dados e Mineração de Dados Eduardo Massao Arakaki ([email protected]) Marcela Fontes Lima Guerra ([email protected])

Transcript of Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki...

Page 1: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Descoberta de Conhecimento Descoberta de Conhecimento em Bases de Dadosem Bases de Dadose Mineração de Dadose Mineração de Dados

Eduardo Massao Arakaki([email protected])

Marcela Fontes Lima Guerra([email protected])

Page 2: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

RoteiroRoteiro Motivação Exemplo preliminar Conceitos básicos Processo de kdd Métodos de mineração de dados Técnicas Exemplos Referências

Page 3: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

MotivaçãoMotivação

A informatização dos meios produtivos permitiu a geração de grandes volumes de dados:– Transações eletrônicas;– Novos equipamentos científicos e industriais para

observação e controle;– Dispositivos de armazenamento em massa;

Aproveitamento da informação permite ganho de competitividade: “conhecimento é poder (e poder = $$!)”

Motivação

Page 4: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

MotivaçãoMotivação

Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução

“Morrendo de sede por conhecimento em um oceano de dados”

Motivação

Page 5: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

MotivaçãoMotivação

Solução: – ferramentas de automatização das tarefas

repetitivas e sistemática de análise de dados– ferramentas de auxílio para as tarefas

cognitivas da análise– integração das ferramentas em sistemas

apoiando o processo completo de descoberta de conhecimento para tomada de decisão

Motivação

Page 6: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Exemplo PreliminarExemplo Preliminar

Um problema do mundo dos negócios: entender o perfil dos clientes– desenvolvimento de novos produtos;– controle de estoque em postos de distribuição;– propaganda mal direcionada gera maiores

gastos e desestimula o possível interessado a procurar as ofertas adequadas;

Quais são meus clientes típicos?

Exemplo

Page 7: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Descoberta de Conhecimento Descoberta de Conhecimento em Bancos de Dadosem Bancos de Dados

“O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”;

“Torture os dados até eles confessarem”; O que é um padrão interessante ? (válido,

novo, útil e interpretável)

Conceitos

Page 8: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

KDD x Data MiningKDD x Data Mining

Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável;

KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;

Conceitos

Page 9: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Etapas do ProcessoEtapas do Processo

Seleção Pré-processamento Transformação Data mining (aprendizagem) Interpretação e Avaliação

Processo

Page 10: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Processo mínimo de Processo mínimo de descoberta do conhecimentodescoberta do conhecimento

Compreensão do domínio e dos objetivos da tarefa;Criação do conjunto de dados envolvendo as variáveis necessárias;

Processo

Page 11: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

11

Seleção de DadosSeleção de Dados

Selecionar ou segmentar dados de acordo com critérios definidos:

Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado.

Processo

Page 12: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Processo mínimoProcesso mínimo

Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc.

Processo

Page 13: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

13

Pré-ProcessamentoPré-Processamento

Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas.

Reconfiguração dos dados para assegurar formatos consistentes (identificação)

– Ex. : sexo = “F” ou “M”

sexo = “M” ou “H”

Processo

Page 14: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Processo mínimoProcesso mínimo

Redução de dimensionalidade, combinação de atributos;

Processo

Page 15: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

15

TransformaçãoTransformação

Transformam-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada.

Disponibilizar os dados de maneira usável e navegável.

Processo

Page 16: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Processo mínimoProcesso mínimo

Escolha e execução do algoritmo de aprendizagem de acordo com a tarefa a ser cumprida

Processo

Page 17: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

17

Data MiningData Mining

É a verdadeira extração dos padrões de comportamento dos dados (exemplos)

Processo

Page 18: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Processo mínimoProcesso mínimo

Interpretação dos resultados, com possível retorno aos passos anteriores;

ProcessoConsolidação: incorporação e documentação do conhecimento e comunicação aos interessados;

Page 19: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

19

Interpretação e AvaliaçãoInterpretação e Avaliação

Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas

Processo

Page 20: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Métodos de mineração de Métodos de mineração de dadosdados

Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais;

Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva;

Métodos

Page 21: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Tarefas básicasTarefas básicas

Previsão– Cálculo de variáveis de interesse a partir dos

valores de um conjunto de variáveis de explicação;

– É comumente visada em aprendizado de máquina/estatística;

– Exemplos: classificação e regressão;

Métodos

Page 22: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Tarefas básicasTarefas básicas

Descrição– Reportar relações entre as variáveis do modelo

de forma simétrica;– À princípio, está mais relacionada ao processo

de KDD;– Exemplos: agrupamento, sumarização

(incluindo sumário de textos), dependências, análise de desvio;

Métodos

Page 23: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Exemplo de previsão (I)Exemplo de previsão (I)

Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra:– se a renda é menor que t,

então o crédito não deve ser liberado

Exemplo: – árvores de decisão;– indução de regras

renda

déb

ito

xx

xx

x

x

x

o

oo

oo

o

o

o

o

t

sem crédito

o

o: exemplo aceitox: exemplo recusado

Análise de crédito

Métodos

Page 24: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Exemplo de previsão (II)Exemplo de previsão (II)

Hiperplano oblíquo: melhor separação:

Exemplos: – regressão linear;

– perceptron;

Análise de crédito

renda

déb

ito

xx

xx

x

x

x

o

oo

oo

o

o

o

o

t

sem crédito

o

o: exemplo aceitox: exemplo recusado

Métodos

Page 25: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Exemplo de previsão (III)Exemplo de previsão (III)

Superfície não linear: melhor poder de classificação, pior interpretação;

Exemplos: – perceptrons multicamadas;

– regressão não-linear;

Análise de crédito

renda

déb

ito

xx

xx

x

x

x

o

oo

oo

o

o

o

o

t

sem crédito

o

o: exemplo aceitox: exemplo recusado

Métodos

Page 26: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Exemplo de previsão (IV)Exemplo de previsão (IV)

Métodos baseado em exemplos;

Exemplos:– k-vizinhos mais

próximos;

– raciocínio baseado em casos;

Análise de crédito

renda

déb

ito

xx

xx

x

x

x

o

oo

oo

o

o

o

o

t

sem crédito

o

o: exemplo aceitox: exemplo recusado

Métodos

Page 27: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Exemplo de descrição (I)Exemplo de descrição (I)

Agrupamento Exemplo:

– vector quantization;

renda

déb

ito

++

++

+

+

+

+

++

++

+

+

+

+

t

+

+: exemplo

Análise de crédito

Métodos

Page 28: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Exemplo de descrição (II)Exemplo de descrição (II)

Regras de associação– “98% dos consumidores que adquiriram pneus

e acessórios de automóveis também se interessaram por serviços automotivos”;

– descoberta simétrica de relações, ao contrário de métodos de classificação

qualquer atributo pode ser uma classe ou um atributo de discriminação;

Métodos

Page 29: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Revisão geral de Aprendizagem:

TécnicasTécnicas

CBR

Page 30: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

ExemplosExemplos

Áreas de aplicações potenciais:– Vendas e Marketing

Identificar padrões de comportamento de consumidores

Associar comportamentos à características demográficas de consumidores

Campanhas de marketing direto (mailing campaigns)

Identificar consumidores “leais”

Exemplos

Page 31: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

ExemplosExemplos Áreas de aplicações potenciais:

– Bancos Identificar padrões de fraudes (cartões de

crédito) Identificar características de correntistas Mercado Financeiro ($$$)

Exemplos

Page 32: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

ExemplosExemplos

Áreas de aplicações potenciais– Médica

Comportamento de pacientes Identificar terapias de sucessos para diferentes

tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúde

Exemplos

Page 33: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

IntroduçãoIntrodução

Exemplo (1) - Fraldas e cervejas– O que as cervejas tem a ver com as fraldas ?

– homens casados, entre 25 e 30 anos;

– compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa;

– Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas;

– Resultado: o consumo cresceu 30% .

Exemplos

Page 34: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

ExemplosExemplos Exemplo (2) - Lojas Brasileiras (Info 03/98)

– Aplicou 1 milhão de dólares em técnicas de data mining

– Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas.

– Exemplo de anomalias detectadas:– Roupas de inverno e guarda chuvas encalhadas no

nordeste– Batedeiras 110v a venda em SC onde a corrente

elétrica é 220vExemplos

Page 35: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

ExemplosExemplos Exemplo (3) - Bank of America (Info 03/98)

– Selecionou entre seus 36 milhões de clientes Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em três anos o banco lucrou 30 milhões de

dólares com a carteira de empréstimos.

Exemplos

Page 36: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

ExemplosExemplos Empresas de software para Data mining:

– SAS http://www.sas.com

– Information Havesting http://www.convex.com

– Red Brick http://www.redbrick.com

– Oracle http://www.oracle.com

– Sybase http://www.sybase.com

– Informix http://www.informix.com

– IBM http://www.ibm.com

Exemplos

Page 37: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

ConclusõesConclusões Data mining é um processo que permite compreender o

comportamento dos dados.

Data mining analisa os dados usando técnicas de

aprendizagem para encontrar padrões e regulariedades

nestes conjuntos de dados.

É um problema pluridisciplinar, envolve Inteligência

Artificial, Estatística, Computação Gráfica, Banco de

Dados.

Pode ser bem aplicado em diversas áreas de negócios

Conclusões

Page 38: Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

ReferênciasReferências– Fayyad et al. (1996). Advances in knowledge discovery and data mining, AAAI

Press/MIT Press.

– Holsheimer, M. & Siebes, A.P.J.M. Data Mining: The Search for Knowledge in Databases, 1994.

– http://www-pcc.qub.ac.uk/tec/courses/datamining

– http://www.rio.com.br/~extended

– http://www.datamining.com

– http://www.santafe.edu/~kurt

– http://www.datamation.com

– http://www-dse.doc.ic.ac.uk/~kd

– http://www.cs.bham.ac.uk/~anp

– http://www.dbms.com

– http://www.infolink.com.br/~mpolito/mining/mining.html

– http://www.lci.ufrj.br/~labbd/semins/grupo1

Referências