Abe Curso

39
Introdução à Mineração de Dados Luis Paulo Vieira Braga [email protected] [email protected] II Semana da ABE no Rio de Janeiro ENCE 14, 15, 16 de setembro de 2009

description

II Semana da ABE - ENCE-IBGE

Transcript of Abe Curso

Page 1: Abe Curso

Introdução à Mineração de Dados

Luis Paulo Vieira Braga

[email protected]

[email protected]

II Semana da ABE no Rio de Janeiro

ENCE

14, 15, 16 de setembro de 2009

Page 2: Abe Curso

Page 2

ROTEIRO

INTRODUÇÃO

DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS (KDD) E MINERAÇÃO DE DADOS (DM)

BANCOS DE DADOS PARA DM

TRATAMENTO DE DADOS PARA DM

TÉCNICAS PARA DM

VALIDAÇÃO DO MODELO

ESTUDOS DE CASO

Page 3: Abe Curso

Page 3

INTRODUÇÃO

A mineração de dados provê um método automático para descobrir padrões em dados, sem a tendenciosidade e a limitação de uma análise baseada meramente na intuição humana. Além disso massas de dados são demasiadamente grandes e intrincadas para tratamento manual.

A mineração de dados compreende um conjunto de técnicas para descrição e predição a partir de grandes massas de dados. Por este motivo ela está geralmente associada bancos de dados especiais denominados datawharehouse. Estes bancos de dados viabilizam a integração rápida de dados oriundos de diferentes fontes.

Page 4: Abe Curso

Page 4

INTRODUÇÃO

MODELOS PREDITIVOS PRETENDEM ESTIMAR VALORES FUTUROS OU DESCONHECIDOS DE UMA VARIÁVEL DE INTERESSE(target)

MODELOS DESCRITIVOS PROCURAM IDENTIFICAR PADRÕES NO CONJUNTO DE DADOS

Page 5: Abe Curso

Page 5

INTRODUÇÃO

A classificação (supervisionada) ou predição categórica busca a criação de modelos para predizer as classes a que pertencem objetos desconhecidos. Determina uma regra que possa ser usada para classificar de forma otimizada uma nova observação a uma classe já rotulada.

Page 6: Abe Curso

Page 6

INTRODUÇÃO

A predição de uma variável quantitativa é alcançada através demodelos preditivos.

Page 7: Abe Curso

Page 7

INTRODUÇÃO

Segmentação ( ou classificação não supervisionada) tem por objetivo a separação dos dados em sub-grupos ou classes. Em geral a segmentação é uma etapa do processo. Segmentação é a criação de classes.

Page 8: Abe Curso

Page 8

INTRODUÇÃO

A Análise de Associação busca modelos que descrevam uma associação significativa entre dados ou eventos. Uma das aplicações mais cohecidas é a análise de cesta de compras.

Page 9: Abe Curso

Page 9

DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS (KDD) E MINERAÇÃO DE DADOS (DM)

O termo KDD – Knowledge Discovery in Databases foicriado em 1995 para designar o conjunto deprocessos, técnicas e abordagens que propiciam ocontexto no qual a mineração de dados terá lugar.

Page 10: Abe Curso

Page 10

DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS (KDD) E MINERAÇÃO DE DADOS (DM)

Rigorosamente o DM se restringe à obtenção demodelos, ficando as etapas anteriores e o próprio DM comoinstâncias do KDD.

Dados Dados Dados

Pré- Transformados

Processados

Previsão

Classificação

Page 11: Abe Curso

Page 11

DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS (KDD) E MINERAÇÃO DE DADOS (DM)

Procurando estabelecer uma seqüência genérica de etapas para um projeto de Mineração de Dados teríamos:

Definição do problema

Avaliação dos dados

Extração de características e realce

Prototipagem

Avaliação do modelo

Implementação

Avaliação pós-projeto

Page 12: Abe Curso

Page 12

DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS (KDD) E MINERAÇÃO DE DADOS (DM)

1. Problema: identificar clientes que se interessariam em comprar CDB s.

2.Dados: amostra de 150.000 clientes dos quais se mediram diversos atributos

3. Extração de características : considerar apenas os atributos relacionados à recência, freqüência e fator monetário.

4. Modelo : Árvore de decisão

5. Avaliação: A árvore explicou 80% do comportamento dos clientes

6. Implementação: Baseado na árvore foram enviados convites para parte da totalidade dos clientes do Banco

propondo a aplicação em CDB s

7. Retorno do Investimento: Gastou-se 30% a menos em divulgação porque ao contrário de outras promoções o

contato só foi feito com parte dos clientes. A resposta foi 50% melhor do que em promoções anteriores.

Exemplo das

sete etapas em

uma aplicação

destinada a

uma campanha

de vendas de

CDB s de um

Banco que tem

1.400.000

clientes

pessoas

físicas.

Page 13: Abe Curso

Page 13

BANCOS DE DADOS PARA DM, DATA WARE HOUSE(

DW é um repositório centralizado de dadose informações corporativas, orientado àgestão operacional, tática e estratégica daempresa.

O DW é obtido a partir da contínuaintegração de dados de fontes internas(operacionais e institucionais) e externas(mercado, com uma perspectiva temporal).

Entrega, devoluções e seus motivos deixamde ser aspectos meramente operacionais epassam a integrar o repositório deinformações sobre os clientes

Page 14: Abe Curso

Page 14

BANCOS DE DADOS PARA DM, DATA WARE HOUSE

www.jeunesse.com.br

Page 15: Abe Curso

Page 15

BANCOS DE DADOS PARA DM, DATA WARE HOUSE

Os dados são modelados em uma estruturadimensional conhecida como cubóides, os quaisconsistem de dimensões e valores quantitativos.

Page 16: Abe Curso

Page 16

BANCOS DE DADOS PARA DM, DATA WARE HOUSE

Page 17: Abe Curso

Page 17

BANCOS DE DADOS PARA DM, DATA WARE HOUSE

Page 18: Abe Curso

Page 18

BANCOS DE DADOS PARA DM, DATA WARE HOUSE

Page 19: Abe Curso

Page 19

TRATAMENTO DE DADOS PARA DM

Amostragem

Procedimento utilizado em substituição àtotalidade dos dados motivado pelaimpossibilidade ou conveniência.

Page 20: Abe Curso

Page 20

TRATAMENTO DE DADOS PARA DM

AMOSTRA DE TREINAMENTO

AMOSTRA DE VALIDAÇÃO

AMOSTRA (OCULTA)

Page 21: Abe Curso

Page 21

TRATAMENTO DE DADOS PARA DM

TRIAGEM

Uma vez selecionada a amostra há três tarefas a realizar: tratar erros, valores aberrantes

(outliers) e valores faltantes (missing values).

Page 22: Abe Curso

Page 22

TRATAMENTO DE DADOS PARA DM

EXTRAÇÃO DE CARACTERÍSTICAS E

REALCE

Nesta etapa o conjunto de dados é preparado para a modelagem. Procedimentos típicos desta fase incluem: seleção e transformações de variáveis.

Page 23: Abe Curso

Page 23

TRATAMENTO DE DADOS PARA DM

REDUÇÃO DE VARIÁVEIS

Problemas em Mineração de Usualmenteenvolvem um grande número de variáveis –centenas é algo comum. Portanto sãonecessárias técnicas expressas para umaprimeira redução.

Uma maneira de diminuir o número de variáveis seriaproceder uma regressão logística e eliminar as variáveispara as quais o valor p da estatística qui-quadrada fôssemaior que 0,5 . Caso ainda assim tivéssemos muitasvariáveis , manteríamos aquelas com os maiores valoresde estatísticas qui-quadrada.

Page 24: Abe Curso

Page 24

TÉCNICAS PARA DM

MÉTODOS PARA MODELOS DE PREDIÇÃO COM VARIÁVEIS DE ENTRADA E SAÍDA CONTÍNUAS

Toda a família de métodos de regressão pode ser útil para estes modelos : regressão linear, não linear, univariada e multivariada

Page 25: Abe Curso

Page 25

TÉCNICAS PARA DM

MÉTODOS PARA MODELOS DE PREDIÇÃO COM VARIÁVEIS DE ENTRADA CONTÍNUAS, INTEIRAS OU CATEGÓRICAS E SAÍDA CATEGÓRICA

Regressão Logística, Árvores de Classificação, Análise

Discriminante, Redes Neurais

X 2

A B

xx

xxxxxx +++

x xxxx++++

xxxx ++++

X 1

Função discrim inante Y

Page 26: Abe Curso

Page 26

TÉCNICAS PARA DM

MÉTODOS PARA MODELOS DECLASSIFICAÇÃO COM VARIÁVEIS DEENTRADA CONTÍNUAS, INTEIRAS OUCATEGÓRICAS E SAÍDA CATEGÓRICA

Análise de Cluster, Análise de

Associação

Page 27: Abe Curso

Page 27

VALIDAÇÃO DO MODELO

A modelagem em DM necessariamente passa por três etapas:

a) Formulação do modelo (especificação)

b) Ajuste do modelo (estimação)

c) Checagem do modelo (validação)

Page 28: Abe Curso

Page 28

VALIDAÇÃO DO MODELO

A escolha do modelo se faz com base natradição da área de aplicação ou em funçãode alguma inovação baseada em motivaçãoheurística. Entretanto, a amostra que serviupara a estimação do modelo, não deve ser amesma a ser utilizada para a validação.

Page 29: Abe Curso

Page 29

VALIDAÇÃO DO MODELO

Basicamente considera-se que ummodelo de mineração de dadosfalhou quando um dos dois eventosocorre:

Não identifica padrões relevantes que realmente estão presentes nos dados e poderiam ser generalizados.

Identifica padrões que não generalizam, não são relevantes ou não estão presentes nos dados.

Page 30: Abe Curso

Page 30

VALIDAÇÃO DO MODELO

Se um modelo não é validado, a razão poderá ser encontrada nos dados; num ajuste inadequado ou ainda em algum problema com a seleção das técnicas.

Page 31: Abe Curso

Page 31

VALIDAÇÃO DO MODELO

Problemas típicos com os dados:

Arredondamento inadequado; codificação simbólica ou numérica imprópria; dados faltantes; dados replicados (por exemplo, o mesmo cliente contado mais de uma vez).

Problemas típicos com o ajuste:

Extração de características e/ou realce insuficiente (por exemplo – desenvolver um modelo de classificação baseado em atributos com pequena variação para o conjunto de dados disponível.); populações com classes muito desiguais (por exemplo – clientes fraudadores são a minoria no conjunto de clientes).

Page 32: Abe Curso

Page 32

VALIDAÇÃO DO MODELO

Problemas típicos com a seleção da técnica: muitas vezes o problema com o ajuste é devido à seleção da técnica. Os critérios de ajuste de um modelo geralmente incidem sobre seus parâmetros, mas os objetivos de previsão ou classificação vão ser validados sobre as variáveis de saída (target).

Page 33: Abe Curso

Page 33

VALIDAÇÃO DO MODELO

GRÁFICO DE ALAVANCAGEM

Há um método prático para uma avaliação inicial que é um gráfico comparativo entre a predição do modelo e os dados. Suponhamos que tenha sido feita um modelo ajustado de regressão logística para prever se um cliente irá responder positivamente a uma promoção. A partir dos dados de validação calculamos o valor da função de regressão para cada observação, ordenamos decrescentemente a amostra em função deste valor. Dividimos em seguida esta amostra em decis .

Page 34: Abe Curso

Page 34

VALIDAÇÃO DO MODELO

Para cada decil temos a probabilidade de resposta em função da regressão logística e também conhecemos se a observação corresponde a um cliente que aceitou a promoção (1) ou rejeitou (0) , a média sobre os valores 0-1 observados naquele decil permite fazer a comparação com o predito pelo modelo. Considera-se que havendo uma diferença de até 10% entre os valores preditos e os valores observados para mais seja indicador de um bom ajuste.

Page 35: Abe Curso

Page 35

VALIDAÇÃO DO MODELO

Lift Chart - Response %

Cumulative

Selected category of ID_DG_NOT: 1

Model

TreeModel0 10 20 30 40 50 60 70 80 90 100 110

Percentile

60

65

70

75

80

85

Response %

Page 36: Abe Curso

Page 36

VALIDAÇÃO DO MODELO

Vamos considerar agora um método de validação baseado em reamostragem. Há duas técnicas principais para reamostragem: jacknifinge bootstraping.

Jacknifing – para um total de N observações, exclui-se aleatoriamente uma observação. A predição é feita com base nas N-1 observações restantes e compara-se com o valor conhecido da observação excluída. O processo é repetido e a distribuição dos erros valida ou não o modelo. No caso de grandes amostras, ao invés de se retirar uma observação, retiram-se aleatoriamente 50% das observações.

Bootstrapping – a partir das N observações extraem-se N amostras com reposição. Da mesma forma a predição é feita com base nestas amostras e

comparada com o valor conhecido.

Page 37: Abe Curso

Page 37

VALIDAÇÃO DO MODELO

Os resultados da validação obtidos a partir da comparação dos valores conhecidos com os estimados podem ser apresentados em uma tabela denominada matriz de confusão.

Predição Frequência

Verdade

Porcentual

Classificação

Correta

Verdade 1 2

1 22 3 25 88%

2 5 20 25 80%

Frequência

Predição

27 23 50 84%*

*Número de classificação de corretas/ Número total de observações

Caso seja necessário, pode-se estabelecer pesos diferentes para as

freqüências obtidas em cada uma das células.

Page 38: Abe Curso

Page 38

VALIDAÇÃO

O processo de validação não termina com a seleção do(s) modelo(s) , mas continua durante a fase de sua implementação e uso do mesmo no contexto de sua aplicação.

Page 39: Abe Curso

Page 39

LANÇAMENTO FUTURO