MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações...

110
1 MINERAÇÃO DE DADOS

Transcript of MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações...

Page 1: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

1

MINERAÇÃO DE

DADOS

Page 2: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

2

CONCEITOS BÁSICOS

DADO

INFORMAÇÃO

CONHECIMENTO

Page 3: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

3

Os dados são elementos brutos, sem significado, desvinculados

da realidade. São, segundo Davenport (1998, p. 19), "observações

sobre o estado do mundo".

São símbolos e imagens que não dissipam nossas incertezas. Eles

constituem a matéria-prima da informação. Dados sem qualidade levam

a informações e decisões da mesma natureza.

Sendo o dado considerado a matéria-prima para a informação: o que

são informações?

DADOS

CONCEITOS BÁSICOS

Page 4: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

4

As informações são dados com significado. "São dados dotados

de relevância e propósito" (Drucker apud Davenport, 1998, p.18).

Elas são o resultado do encontro de uma situação de decisão com

um conjunto de dados, ou seja, são dados contextualizados que

visam a fornecer uma solução para determinada situação de decisão

(MacDonough apud Lussato, 1991).

A informação pode assim ser considerada como dados

processados e contextualizados, mas para Sveiby (1998) a

informação também é considerada como "desprovida de significado

e de pouco valor", e Malhotra (1993) a considera como "a matéria-

prima para se obter conhecimento".

INFORMAÇÕES

CONCEITOS BÁSICOS

Page 5: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

5

Para Davenport (1998, p.19), o "conhecimento é a informação

mais valiosa (...) é valiosa precisamente porque alguém deu à

informação um contexto, um significado, uma interpretação (...)".

O conhecimento pode então ser considerado como a informação

processada pelos indivíduos. O valor agregado à informação

depende dos conhecimentos anteriores desses indivíduos.

Assim sendo, adquirimos conhecimento por meio do uso da

informação nas nossas ações.

Desta forma, o conhecimento não pode ser desvinculado do

indivíduo; ele está estritamente relacionado com a percepção do

mesmo, que codifica, decodifica, distorce e usa a informação de

acordo com suas características pessoais, ou seja, de acordo com

seus modelos mentais ou necessidade.

CONHECIMENTO

CONCEITOS BÁSICOS

Page 6: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

6

Um carro BMW, último tipo, conversível, zero

quilômetro, totalmente destruído em um acidente

no qual o motorista bateu em uma árvore

centenária derrubando-a pode ser codificado,

decodificado e distorcido das seguintes maneiras.

Algumas pessoas serão levadas a decodificar

as informações baseadas em seus valores

materiais: "Logo um carro tão caro! Será que ele

está segurado?

Exemplo

CONCEITOS BÁSICOS

Page 7: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

7

Enquanto outras pessoas, com valores humanos

mais aguçados, terão seu foco no ser humano:

"Será que o acidente resultou em feridos?"

Outras pessoas com interesses ecológicos ainda

terão suas atenções voltadas ao destino da árvore

centenária: "Logo nesta árvore! Não poderia ter

sido em uma outra?".

Exemplo

CONCEITOS BÁSICOS

Page 8: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

8

MAIS UM INGREDIENTE

NA CONCEPÇÃO DA

UTILIZAÇÃO DA

INFORMAÇÃO

Page 9: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

9

DADOS

DADOS CONTEXTO INFORMAÇÃO

INFORMAÇÃO EXPERIÊNCIA CONHECIMENTO

CONHECIMENTO HABILIDADE COMPETÊNCIA

UM NOVO CONCEITO

Page 10: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

10

TOMADA DE DECISÕES

Informação

Conhecimento

Competência

Decisão

Cadeia do

Processo

Decisório

ERP ,

Sistemas

Individuais

BI : OLAP, CRM,

DATAWAREHOUSE,

DATA MINING, etc;

Dados

Page 11: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

11

Era da Inteligência

Era das aplicações

Era dos bancos de dados

1980 1990 2000 2010

HISTÓRICO

Page 12: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

12

A IMPORTÂNCIA DA

INFORMAÇÃO

Page 13: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

13

DUPLO PAGAMENTO

O consumidor paga duas vezes por cada compra:

A primeira com dinheiro e a segunda ao fornecerinformação que vale dinheiro.

Por exemplo, se o freguês pagar com cartão decrédito, é claro, que muita coisa é revelada. Agora ofreguês também está fornecendo: (1) nome, (2)endereço e CEP, (3) informação sobre crédito, (4)base para inferir na renda familiar, e muitas coisasmais.

A pergunta essencial que paira no ar é: Quempossui os dados sobre o freguês ? E quando custa.

Page 14: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

14

DUPLO PAGAMENTO

O consumidor paga duas vezes por cada compra:

A primeira com dinheiro e a segunda ao fornecerinformação que vale dinheiro.

Por exemplo, se o freguês pagar com cartão decrédito, é claro, que muita coisa é revelada. Agora ofreguês também está fornecendo: (1) nome, (2)endereço e CEP, (3) informação sobre crédito, (4)base para inferir na renda familiar, e muitas coisasmais.

A pergunta essencial que paira no ar é: Quempossui os dados sobre o freguês ? E quando custa.

Page 15: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

15

O PODER DA INFORMAÇÃO

O maior capital das empresas não são mais os

seus colaboradores. Mas sim, as suas informações.

As informações passaram a ser os resultados de

todas as ações operacionais que fazem a empresa

funcionar.

Page 16: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

16

OBTENDO INFORMAÇÕES

Quais informações poderíamos

obter em uma simples Nota Fiscal

e que cruzamentos poderíamos

fazer?

Page 17: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

17

UMA NOTA FISCAL

Page 18: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

18

UMA NOTA FISCAL

Page 19: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

19

O QUE É MAIS IMPORTANTE ?

A

INFORMAÇÃO !

Page 20: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

20

REFLEXÃO...

“ ADMINISTRAR BEM UM NEGÓCIO É

ADMINISTRAR SEU FUTURO; E ADMINISTRAR

SEU FUTURO É ADMINISTRAR INFORMAÇÕES “

( Marion Harper Jr.)

Page 21: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

21

REFLEXÃO

“O mundo não está interessado

nas tempestades que você

enfrentou, quer apenas saber se

você trouxe o navio”William Mac Fee

E como você acha que as

organizações pensam?

Page 22: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

22

. . .

“Não estamos aqui para prever o

futuro ,mas sim para criar a

certeza de tê-lo”

Peter Ferdinand Drucker

E com quais ferramentas?

Page 23: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

23

ESPÉCIES DE ORGANIZAÇÕES

AS QUE FAZEM AS COISAS

ACONTECEREM.

AS QUE OBSERVAM AS COISAS

ACONTECEREM.

AS QUE PERGUNTAM O QUE

ACONTECEU.

Page 24: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

24

REFLEXÃO

“DIGA-ME, POR FAVOR, QUE CAMINHO DEVO TOMAR

PARA SAIR DAQUI ?”, perguntou Alice.

“ISTO DEPENDE DE PARA ONDE VOCÊ QUER IR”,

disse o gato.

“NÃO FAZ DIFERENÇA PARA MIM”, retrucou Alice.

“ENTÃO, NÃO FAZ DIFERENÇA QUE CAMINHO VOCÊ

TOMA”,

respondeu-lhe o gato.

“ALICE NO PAÍS DAS MARAVILHAS”

Lewis Carroll

Page 25: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

25

.....

Comentários ?

Page 26: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

26

NECESSIDADES

DE UM

GESTOR

Page 27: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

27

•INFORMAÇÃO

•ANÁLISE

•DECISÃO

•AÇÃO

•VELOCIDADE

•RESULTADOS

NECESSIDADE DO GESTOR

Page 28: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

28

Informação

NECESSIDADE DO GESTOR

QUANTO MAIOR A QUANTIDADE E QUALIDADE

DAS INFORMAÇÕES DISPONÍVEIS, MAIS FÁCIL

ACHARMOS ONDE ATUAR PARA ALCANÇARMOS

NOSSOS OBJETIVOS.

QUANTO MAIS FÁCIL PUDERMOS

MANIPULAR TAIS INFORMAÇÕES, PERMITINDO

ESTUDAR CENÁRIOS POR DIFERENTES

PERSPECTIVAS, MAIS CLARAS, FÁCEIS E FIÉIS

SERÃO NOSSAS CONCLUSÕES.

Análise

Page 29: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

29

Decisão

NECESSIDADE DO GESTOR

CONCLUSÕES EMBASADAS EM DADOS

REAIS NOS LEVAM A TOMAR DECISÕES

ASSERTIVAS, NA DIREÇÃO EXATA DE NOSSOS

OBJETIVOS.

Ação

TAIS DECISÕES DEVEM SER IMPLANTADAS

DE MANEIRA RÁPIDA E ABRANGENTE, SENDO

TRANSFORMADAS EM AÇÕES.

Page 30: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

30

Velocidade

NECESSIDADE DO GESTOR

AÇÕES QUE POR SUA VEZ DEVEM SER

PROCESSADAS RAPIDAMENTE, COM QUALIDADE,

EM QUANTIDADE E ABRANGÊNCIA.

Resultados

SÓ ASSIM CHEGAMOS AOS RESULTADOS

POSITIVOS QUE BUSCAMOS.

NÃO POR “MÁGICA” E SIM COMO

CONSEQÜÊNCIA LÓGICA E NORMAL DE UM

TRABALHO REALIZADO.

Page 31: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

31

NECESSIDADES

DO

USUÁRIO

Page 32: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

32

“Quero toda a Informação..."

Informação

Integrada

Medias

Importantes

Retorno Gerado

pelo Computador ExperiênciaAnálise

Processo

de

Business

inout

NECESSIDADES DO USUÁRIO

Page 33: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

33

“INFORMAÇÃO NÃO É FONTE DE PODER,

É FONTE DE GESTÃO”

REFLEXÃO

Page 34: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

34

INFORMAÇÕES

CONHECIMENTO

Foco em Resultados

Métrica dos objetivos

Estratégicos

NECESSIDADES CORPORATIVAS

BASE DE

Page 35: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

35

Data Mining

Mineração de Dados

Page 36: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

36

Mineração de Dados

Page 37: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

37

Mineração de Dados - Justificativa

O volume de dados

duplica a cada ano !

Page 38: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

38

DM - MOTIVAÇÃO

Os recursos de análise de dados tradicionais

são inviáveis para acompanhar esta evolução e

velocidade da Tecnologia da Informação em busca

de conhecimento.

“Morrendo de sede por conhecimento

em um oceano de dados”

Page 39: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

39

DATA MINING

O que é?

Mineração de dados (descoberta de conhecimento

em bases de dados):

Extração de informação interessante (não-

trivial, implícita, previamente desconhecida e

potencialmente útil) dos dados armazenados em

grandes massas de dados conhecimento para

tomada de decisão.

Page 40: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

40

DATA MINING

KDD

Knowledge Discovery in Database

Descoberta de Conhecimento em Banco de Dados

Page 41: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

41

DATA MINING

“KDD é o processo, não

trivial, de extração de

informações, implícitas,

previamente

desconhecidas e

potencialmente úteis, a

partir dos dados

armazenados em um banco

de dados”[Frawley , Piatetsky-Shapiro &

Matheus,1991]

Page 42: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

42

DATA MINING

Como identificar conhecimento em

uma grande massa de dados:

– Padrões (“X” acontece se...)

– Exceções (isto é diferente de... por causa de...)

– Tendências (ao longo do tempo, “Y” deve

acontecer...)

– Correlações (se “M” acontece, “N” também deve

acontecer)

Page 43: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

43

DATA MINING

O que é?

Nomes alternativos:

Descoberta (mineração) de conhecimento em

banco de dados (KDD - Knowledge Discovery in

Database ), extração de conhecimento, análise de

dados/padrões, business intelligence, etc.

O que não é data mining?

Processamento de consultas dedutivo.

Sistemas especialistas ou pequenos programas

estatísticos ou de aprendizado de máquina.

Page 44: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

44

DATA MINING - MOTIVAÇÃO

Problema da explosão de dados

Processo de tomada de decisão exige análise de grandes

massas de dados

Solução: Data Warehousing e Data Mining

Data warehousing: Visão multidimensional dos dados para

processamento OLAP

Data mining: Extração de conhecimento interessante (regras,

padrões, restrições) dos dados em grandes bases de dados.

Page 45: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

45

DATA MINING - APLICAÇÕES

Análise de dados e suporte a decisões

Análise de mercado

Marketing sob demanda, relação entre clientes, análise e

segmentação de mercado, análise cruzada de dados, etc.

Análise de risco

Previsão, controle de qualidade, análise competitiva,

análise de seguros

Detecção de fraude

Outras Aplicações

Mineração de texto (news group, email, documentos XML)

Page 46: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

46

Quais são as fontes de dados para Análise de Mercado ?

Transações de cartões de crédito, cartões de fidelidade, cupons

de desconto, serviços de televendas, estudos de comportamento

(questionários públicos, web, etc.)

Marketing sob demanda

Descobrir grupos de “modelos” de clientes que compartilham as

mesmas características: interesses, hábitos de compras, etc.

Determinar padrões de compras.

Análise cruzada de dados.

Associações/corelações entre vendas de produtos

Previsão baseada nas associações determinadas

DM – ANÁLISE DE MERCADO

Page 47: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

47

DM – ANÁLISE DE MERCADO

Preferências do Cliente

Data mining pode mostrar que tipos de clientes compram

que tipos de produtos (clustering ou classificação).

Identificação das necessidades dos clientes

Melhores produtos para diferentes clientes;

Modelos de predição para descobrir que fatores vão atrair

novos clientes

Informações sumárias

Relatórios multidimensionais e estatísticos

Page 48: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

48

Planejamento de finanças e orçamentoAnálise e predição de fluxo de caixa

Análise de contingência para provisão de bens

Análise de séries temporais

Planejamento de recursos:Resume e compara os recursos e os gastos

Competição:Monitorar concorrentes e direções de mercado

Agrupar clientes em classes e elaborar métodos para ajustar preços competitivos com os concorrentes do mercado

DATA MINING – ANÁLISE DE RISCOS

Page 49: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

49

DM – DETECCÃO DE FRAUDES

AplicaçõesLargamente usada em serviços de saúde, cartões de créditos,

telecomunicações (fraude de ligações telefônicas), etc.

TécnicasDados históricos para construir modelos de comportamento

fraudulentos e usar mineração de dados para identificar instâncias

similares

ExemplosSeguro de automóveis: detecta um grupo de pessoas que são

potenciais coletores de sinistros

Lavagem de dinheiro: detecta transações suspeitas de dinheiro

Seguro de saúde: detecta pacientes “profissionais” e grupo de

outores usados para receber seguro destes pacientes

Page 50: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

50

DM – DETECCÃO DE FRAUDES

Detecção inapropriada de tratamento médicoComissão de Seguro de Saúde da Austrália identificou que em muitos casos os tratamentos não eram necessários (economia de $1milhão/ano).

Detecção de fraudes telefônicasModelo de ligações telefônicas: destino da ligação, duração, hora do dia, dia da semana. Análise de padrões que desviam do padrão esperado.

Page 51: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

51

DM - DESCOBERTA DO

CONHECIMENTO EM BD (KDD)

FAYYAD 1996

?

CONHECIMENTO

PADRÕES

DADO

TRANSFORMADO

DATA

MINING

INTERPRETAÇÃO/

AVALIAÇÃO

DADOS

SELEÇÃO

PRÉ-PROCESSAMENTO

DADO

ANALISADO

DADO

PROCESSADO

TRANSFORMAÇÃO

Page 52: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

52

DM - DESCOBERTA DO

CONHECIMENTO EM BD (KDD)

Dados

Conhecimento

Dados

Pré-processados

Dados

Transformados

Regras e

Padrões

Dados

Selecionados

1

1 - SELEÇÃO

2 - PRÉ-PROCESSAMENTO(Limpeza + Enriquecimento)

3 - TRANSFORMAÇÃO

4 - MINERAÇÃO

5 - INTERPRETAÇÃO

2

3

4

5

Page 53: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

53

DM - ETAPAS DO PROCESSO DE KDD

Conhecer o domínio da aplicação.

Conhecimento relevante e metas da aplicação

Criar a base de dados alvo: seleção de dados

Limpeza dos dados e pré-processamento: (até 60% do esforço!)

Transformação dos dados:

Contemplar propriedades importantes e dimensões.

Escolha das funções do data mining

sumarização, classificação, associação, clustering.

Escolha dos algortimos de mineração

Data mining: busca dos padrões de interesse

Avaliação dos padrões descobertos e apresentação do conhecimento

visualização, transformação, remoção de padrões redundantes, etc.

Uso do conhecimento descoberto

Page 54: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

54

DM - ETAPAS DO PROCESSO DE KDD

Data Mining

Descoberta

Modelagem de

Prognóstico

Análise Prévia

Lógica

Condicional

Afinidades e

Associações

Tendências e

Variações

Resultado do

Prognóstico

Previsão

Detecção de

Desvio

Análise de

Ligações

Page 55: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

55

ARQUITETURA DE UM SISTEMA DE

DATA MINING

Data

Warehouse

Data cleaning &

data integration

Filtering

Databases

Database or data warehouse server

Data mining engine

Pattern evaluation

Graphical user interface

Knowledge-base

Page 56: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

56

ALGUMAS TÉCNICAS

DE MINERAÇÃO

DE DADOS

Page 57: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

57

Classificação

Descoberta de Regras de Associação

Clustering

TÉCNICAS DE MINERAÇÃO DE DADOS

Page 58: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

58

Mineração de Dados - Classificação

• Usamos o Indutor, como por exemplo uma Árvore

de decisão (ID3, C4.5), para indicar classes para

estes dados. Assumimos que dados desconhecidos

“próximos” de dados conhecidos terão a mesma

classe dos dados conhecidos.

• O processo pode ser avaliado se usarmos dados

com classes conhecidas, fizermos a sua

classificação e compararmos os resultados

previstos com os obtidos.

Page 59: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

59

Classificação - REGRAS

Regras possuem:

antecedentes (condições) e

conseqüentes (classe):

SE COND1 E COND2 E... ENTÃO CLASSE(A)

Condições relacionam valores dos atributos:

Atributos : Cliente, Data Vencimento, Pagamento, Valor,....

Relações: <, >, =,......

Mineração de Dados - Classificação

Page 60: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

60

Classificação – REGRAS - Exemplo

SE 06:00hs< hora_sinistro < 08:30hs E

oficina

oficinas_suspeitas E

prêmio_seguro < R$ 2300 E

registro_policial = NÃO E

. . . . . . . . . . .

custo_sinistro > 2,4 prêmio_seguro

ENTÃO FRAUDE

Mineração de Dados - Classificação

Page 61: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

61

Classificação - Exemplo

Sexo País Idade Comprar

M França 25 sim

M Inglaterra 21 sim

F Franca 23 sim

F Inglaterra 34 sim

F França 30 não

M Alemanha 21 não

M Alemanha 20 não

F Alemanha 18 não

F França 34 não

M França 55 não

Mineração de Dados - Classificação

Page 62: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

62

Classificação

SE (país = “Alemanha”) ENTÃO (comprar=“não”)

Se (país = “Inglaterra”) ENTÃO (comprar = “sim”)

SE (país = “França” E idade 25) ENTÃO (comprar = “sim”)

SE (país = “França” E idade > 25) ENTÃO (comprar = “não”)

Mineração de Dados - Classificação

Page 63: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

63

Algoritmo ID3 [Quinlan 86]

Mineração de Dados - Classificação

Passos para construção de uma árvore de decisão:

1. Seleciona um atributo como sendo o nodo raiz ;

2. Arcos são criados para todos os diferentes valores do

atributo selecionado no passo 1;

3. Se todos os exemplos de treinamento sobre uma folha

pertencerem a uma mesma classe, esta folha recebe o

nome da classe. Se todas as folhas possuem uma

classe, o algoritmo termina;

4. Senão, o nodo é determinado com um atributo que não

ocorra no trajeto da raiz, e arcos são criados para todos

os valores. O algoritmo retorna ao passo 3.

Page 64: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

64

Mineração de Dados - Classificação

ID Salário Idade Tipo Emprego Classe

1 3.000 30 Autônomo B

2 4.000 35 Indústria B

3 7.000 50 Pesquisa C

4 6.000 45 Autônomo C

5 7.000 30 Pesquisa B

6 6.000 35 Indústria B

7 6.000 35 Autônomo A

8 7.000 30 Autônomo A

9 4.000 45 Indústria B

Salário

Idade

T.Empr.

B

A

C

B

5.000 5.000

40 40

Ind.,Pesq. Autônomo

Árvore de Decisão ou

Árvore de Classificação

(Sal 5.000) Classe = B

(Sal 5.000) (Idade 40) Classe = C

(Sal 5.000) (Idade 40) (TEmpr = Autônomo) Classe = A

(Sal 5.000) (Idade 40) ((TEmpr = Indústria) (TEmpr = Pesquisa)) Classe = B

Regras de Classificação

Exemplo

Page 65: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

65

Algoritmo ID3: restrições

Mineração de Dados - Classificação

O algoritmo ID3 não contempla todos os casos:

• Quando atributos forem numéricos?

– Esquemas de discretização.

– Identificação de categorias discretas em atributos numéricos

(particionamento do atributo).

• Quando dados estiverem incompletos?

– Usar classe “faltando”.

– Substituir valores inexistentes (pré-processamento).

• Complexidade da árvore resultante

– Pruning (poda)

Outros algoritmos: C4.5 / J4.8

Page 66: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

66

Associação

Mineração de Dados

Page 67: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

67

Descoberta de Regras de Associação

Regras de associação ou regras associativas têm a forma

{X1, X2, ..., Xn} Y

significando que se encontrarmos todos os itens X1, X2,

..., Xn numa transação, então temos uma boa chance de

encontrar também Y.

(Freitas,2000)

Mineração de Dados - Associação

Page 68: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

68

Precisamos de métricas que indiquem:

• Significância em uma associação: ela pode existir mas ser muito rara

em uma base de dados (ex. Compra cerveja e fraldas).

– Suporte X Λ Y : número de casos que contém X e Y dividido pelo

número total de registros.

• Confiança em uma associação: o antecedente pode ocorrer várias

vezes na base de dados mas nem sempre com o mesmo conseqüente

associado.

– Confiança X Λ Y : número de registros que contém X e Y dividido pelo

número de registros que contém X.

(Freitas,2000)

Mineração de Dados - Associação

Page 69: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

69

Descoberta de Regras de Associação

dada a regra de associação X Y

X implica Y

se X então Y

se compra X então compra Y,

define-se

(Freitas,2000)

suporte = Número de registros com X e Y

Número total de registros

confiança = Número de registros com X e Y

Número de registros com XGrau de Certeza

Mineração de Dados - Associação

Page 70: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

70

(Freitas,2000)

“ Tarefa é descobrir todas a regras de associação

com suporte ao suporte mínimo (minsup) e

confiança confiança mínima (minconf) , definidas

pelo usuário”.

Mineração de Dados - Associação

Page 71: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

71

Descoberta de Regras de Associação

Cada registro corresponde a uma transação de um cliente,

com itens assumindo valores binários (sim/não), indicando se o

cliente comprou ou não o respectivo item.

num leite café cerveja pão manteiga arroz feijão

1 não sim não sim sim não não

2 sim não sim sim sim não não

3 não sim não sim sim não não

4 sim sim não sim sim não não

5 não não sim não não não não

6 não não não não sim não não

7 não não não sim não não não

8 não não não não não não sim

9 não não não não não sim sim

10 não não não não não sim não

(FREITAS & LAVINGTON 98)

Mineração de Dados - Associação

Page 72: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

72

Descoberta de Regras de Associação

(Freitas, 2000)

SE (café) ENTÃO (pão) sup=0.3 conf.=1

SE (café) ENTÃO (manteiga) sup=0.3 conf.=1

SE (pão) ENTÃO (manteiga) sup=0.4 conf.=0.8

SE (manteiga) ENTÃO (pão) sup=0.4 conf.=0.8

SE (café E pão) ENTÃO (manteiga) sup=0.3 conf.=1

SE (café E manteiga) ENTÃO (manteiga) sup=0.3 conf.=1

SE (café) ENTÃO (manteiga E manteiga) sup=0.3 conf.=1

Mineração de Dados - Associação

Page 73: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

73

Algoritmos de regras de Associação

AIS SETM

Apriori Apriori -TID

Apriori-Hybrid Dense – Miner

MiRABIT

Mineração de Dados - Associação

Page 74: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

74

TÉCNICAS DE MINERAÇÃO DE DADOS

(1) Dado um limiar de suporte minsup, no primeiro passo encontre os itens

que aparecem ao menos numa fração das transações igual a minsup. Este

conjunto é chamado L1, dos itens freqüentes.

(2)Os pares dos itens em L1 se tornam pares candidatos C2 para o segundo

passo. Os pares em C2 cuja contagem alcançar minsup são os pares freqüentes

L2.

(3) As trincas candidatas C3 são aqueles conjuntos {A, B, C} tais que todos os

{A, B}, {A, C} e {B, C} estão em L2. No terceiro passo, conte a ocorrência

das trincas em C3; aquelas cuja contagem alcançar minconf são as trincas

freqüentes, L3.

(4) Proceda da mesma forma para tuplas de ordem mais elevada, até os

conjuntos se tornarem vazios. Li são os conjuntos freqüentes de tamanho i;

Ci+1 é o conjunto de tamanho i+1 tal que cada subconjunto de tamanho i está

em Li.

Algoritmo Apriori

Page 75: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

75

TÉCNICAS DE MINERAÇÃO DE DADOS

Algoritmo Apriori

Conjunto de itens suporte

{leite} 2

{café} 3

{cerveja} 2

{pão} 5

{manteiga} 5

{arroz} 2

{feijão} 2

Conjunto de itens suporte

{café} 3

{pão} 5

{manteiga} 5

C1

L1

L1 será os itens de C1 com

suporte >= 3 (0,3)

Page 76: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

76

TÉCNICAS DE MINERAÇÃO DE DADOS

Algoritmo Apriori

C2 , L2

C3, L3

Conjunto de itens suporte

{café, pão} 3

{café, manteiga} 3

{pão, manteiga} 4

Conjunto de itens suporte

{café, pão, manteiga} 3

Os pares dos itens de L1

tornam-se

Candidatos para o C2

Page 77: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

77

TÉCNICAS DE MINERAÇÃO DE DADOS

Algoritmo Apriori

Regras candidatas com dois itens com o seu grau de certeza(Confiança):

Conjunto de itens: {café, pão}

Se café Então pão conf = 1,0

Se pão Então café conf = 0,6

Conjunto de itens: {café, manteiga}

Se café Então manteiga conf = 1,0

Se manteiga Então café conf = 0,6

Conjunto de itens: {pão, manteiga}

Se pão Então manteiga conf = 0,8

Se manteiga Então pão conf = 0,8

Page 78: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

78

TÉCNICAS DE MINERAÇÃO DE DADOS

Algoritmo Apriori

Regras candidatas com três itens com o seu valor de certeza:

Conjunto de itens: {café, manteiga, pão}

Se café, manteiga Então pão conf = 1,0

Se café, pão Então manteiga conf = 1,0

Se manteiga, pão Então café conf = 0,75

Se café Então manteiga, pão conf = 1,0

Se manteiga Então café, pão conf = 0,6

Se pão Então café, manteiga conf = 0,6

Page 79: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

79

Descoberta de Regras de Associação

Padrões descobertos, minsup = 0,3 e minconf = 0,8:

Se café Então pão conf = 1,0

Se café Então manteiga conf = 1,0

Se pão Então manteiga conf = 0,8

Se manteiga Então pão conf = 0,8

Se café, manteiga Então pão conf = 1,0

Se café, pão Então manteiga conf = 1,0

Se café Então manteiga, pão conf = 1,0

Mineração de Dados - Associação

Page 80: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

80

Clustering

Agrupamento

Mineração de Dados

Page 81: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

81

É o resultado da identificação de um conjunto finito de

categorias (ou grupos - clusters) que contêm objetos

similares.

Grupos esses que não são previamente definidos.

Cluster

Mineração de Dados - Clustering

Page 82: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

82

Análise de Cluster

“Esta técnica agrupa informações homogêneas

de grupos heterogêneos entre os demais e aponta o

item que melhor representa cada grupo, permitindo,

desta forma, que consigamos perceber a

característica de cada grupo.

Instintivamente as pessoas visualizam os dados

segmentados em grupos discretos, como por exemplo,

tipos de plantas ou animais. Na criação desses grupos

discretos pode-se notar a similaridade dos objetos em

cada grupo”.GTI (2002) - Deborah R. Carvalho

Mineração de Dados - Clustering

Page 83: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

83

Marketing: ajuda na descoberta de grupos distintos de clientes, e uso deste conhecimento para criar campanhas dirigidas;

Uso de terras: identificação de áreas de uso similar a partir de uma base de observação via satélite;

Seguros: identificação de grupos de assegurados com alto custo de sinistro;

Planejamento urbano: identificação de grupos de casa de acordo com seu tipo, valor e localização geográfica;

Estudos sobre clientes: identificação dos tipos de clientes em função de pagamentos de duplicatas – Meu Caso.

Análise de Cluster

Mineração de Dados - Clustering

Page 84: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

84

Um bom método de agrupamento (clustering) deve produzir

clusters de qualidade com:

Alta similaridade intra-classe;

Baixa similaridade inter-classes.

A qualidade do resultado de um processo de clustering

depende da medida de similaridade, do método utilizado e de

sua implementação;

A qualidade um um processo de clustering também deve ser

avaliada pela sua habilidade de descobrir alguns ou todos os

padrões escondidos (hidden patterns).

O que é bom Clustering:

Mineração de Dados - Clustering

Page 85: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

85

Medida da qualidade do cluster

Métrica de similaridade / dissimilaridade: expressa em termos de função de distância d(i, j)

Existe uma função de “qualidade” que é uma medida da “adequação” de um cluster;

Existem definições de funções de distância que são diferentes para variáveis intervalares, booleanas, categóricas e proporções;

Pesos devem ser associados às variáveis baseados na aplicação e na semântica dos dados;

É difícil definir “suficientemente similar”, pois tipicamente esta avaliação é subjetiva.

Mineração de Dados - Clustering

Page 86: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

86

Similaridade entre objetos: distâncias

qq

pp

qq

jx

ix

jx

ix

jx

ixjid )||...|||(|),(

2211

Distância típica: de Minkowski;

Onde i = (xi1, xi2, …, xip) e j = (xj1, xj2, …, xjp) são vetores p-dimensionais e q é um inteiro

positivo.

Mineração de Dados - Clustering

Page 87: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

87

Similaridade entre objetos: distâncias

q =1: distância de Manhattan:

q =2: distância euclidiana:

||...||||),(2211 pp j

xi

xj

xi

xj

xi

xjid

)||...|||(|),(22

22

2

11 pp jx

ix

jx

ix

jx

ixjid

Mineração de Dados - Clustering

Page 88: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

88

O método k-means (k-médias)

Dado k, o algoritmo k-means é implementado em

quatro passos:

1. Partição dos objetos em k conjuntos não vazios;

2. Cálculo de pontos “semente” como os

centróides (médias) dos clusters das partições

correntes;

3. Assinalação de cada objeto ao cluster

(centróide) mais próximo de acordo com a

função de distância;

4. Retorno ao passo 2 até que não haja mais

alterações de assinalação.

Mineração de Dados - Clustering

Page 89: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

89

O método k-means (k-médias) - Exemplo

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

Mineração de Dados - Clustering

Page 90: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

90

Estudo de

Caso

Extração de conhecimento na

base de clientes da

Organização Arnon de Mello

Page 91: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

91

Ferramentas Observadas

Estudo de Caso - OAM

Bayesialab

KnowledgeMiner

Miner3D

Mineset 3.2

PolyAnalyst

Weka

WizRule

WizWhy

XpertRule

Page 92: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

92

FAYYAD 1996

?

CONHECIMENTO

PADRÕES

DADO

TRANSFORMADO

DATA

MINING

INTERPRETAÇÃO/

AVALIAÇÃO

DADOS

SELEÇÃO

PRÉ-PROCESSAMENTO

DADO

ANALISADO

DADO

PROCESSADO

TRANSFORMAÇÃO

Estudo de Caso - OAM

SQL Server

Planilha EXCEL

Filtros para os atributos:

Cliente,Vencimento,Baixa,

Valor

Page 93: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

93

Estudo de Caso - OAM

Page 94: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

94

Estudo de Caso - OAM

Page 95: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

95

Estudo de Caso - OAMMineSet - Tools

Page 96: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

96

Estudo de Caso - OAM

Page 97: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

97

Estudo de Caso - OAM

Histograma

Cliente X

Clientes por

quantidade de

transações

financeiras (Nº

de Duplicatas)

Cerca de 75% da

carteira pagam

até 21 dias de

atraso

Cliente Tipo A

pagam entre 0 e

30 dias de atraso

Page 98: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

98

Estudo de Caso - OAM

Dispersão

Page 99: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

99

Estudo de Caso - OAM

Dispersão

O cliente 105414 paga com mais

de 360 dias de atraso e seu

volume é de R$717.544 – Requer

providências imediatas.

Page 100: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

100

Estudo de Caso - OAM

Mapa

Page 101: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

101

Estudo de Caso - OAM

Classificação

Page 102: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

102

Estudo de Caso - OAM

Classificação –

Indutor: Àrvore de decisão

Page 103: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

103

Classificação

Page 104: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

104

Estudo de Caso - OAM

Associação

Page 105: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

105

Estudo de Caso - OAM

O cliente 105414 se mantém na faixa de atraso em (241.5...360)

Regra: Se for cliente 105414 paga com mais de 240 dias de atraso

Page 106: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

106

Estudo de Caso - OAM

Regra1: Se for cliente 108017 paga até 30 dias de atraso

Regra2: Se for cliente 113009 paga no prazo (atraso = 0)

Page 107: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

107

Estudo de Caso - OAM

Clustering

Page 108: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

108

Estudo de Caso - OAM

Clustering

Page 109: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

109

Estudo de Caso - OAM

Clustering

Page 110: MINERAÇÃO DE DADOS - Valdick Salesvaldick.com/files/Mineracao_de_dados.pdf · 4 As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker

110

Estudo de Caso - OAM

Clustering