Tópicos de I.A.

49
TÓPICOS DE I.A. DATA MINING – MINERAÇÃO DE DADOS Prof. Régis Albuquerque

description

Tópicos de I.A. DATA MINING – MINERAÇÃO DE DADOS Prof. Régis Albuquerque. DATA MINING – MINERAÇÃO DE DADOS INTRODUÇÃO. A evolução da computação possibilitou um aumento na capacidade de processamento e armazenamento de dados. - PowerPoint PPT Presentation

Transcript of Tópicos de I.A.

Page 1: Tópicos de  I.A.

TÓPICOS DE I.A.DATA MINING – MINERAÇÃO DE DADOSProf. Régis Albuquerque

Page 2: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSINTRODUÇÃO A evolução da computação possibilitou um

aumento na capacidade de processamento e armazenamento de dados.

Diante da deficiência para analisar e compreender grande volume de dados. Diversos estudos têm sido direcionados ao desenvolvimento de tecnologias de extração automática de conhecimento de Bases de Dados.

Extração de Conhecimento de Base de Dados (Knowledge Discovery in Database - KDD)

Mineração de Dados (MD). 2

Page 3: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSINTRODUÇÃOSegundo Figueira(1998), “a tecnlogia tornou

relativamente fácil o acúmulo de dados. A consequência é a apliação do uso dos Data Warehouses. Ao mesmo tempo, a informação é valorizada como nunca antes na história, e os dados armazenados nos Data Warehouses são vasculhados por profissionais especializados, a procura de tendências e padrões”.

3

Data Warehouse: Um datawarehouse é um conjunto de dados orientado por assunto, integrado, variável com o tempo, e não-volátil, que fornece suporte ao processo de tomada de decisão do negócio.

Page 4: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSINTRODUÇÃO

Grande disponibilidade de dados armazenados eletronicamente

Existem informações úteis, invisíveis, nesses grandes volumes de dados

Aproveitar para prever um conhecimento futuro (ir além do armazenamento explícito de dados).

4

Page 5: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSDEFINIÇÃO Segundo Groth (1998), Data Mining é o

processo de descoberta automático de informações.

Para Ávila (1998), Data Mining é uma área de pesquisa da Inteligência Artificial que busca encontrar padrões em bases de dados. Geralmente, considerado como um dos passos no processo de KDD – Knowledge Discovery Database (Descobrimento de Conhecimento em Bases de Dados.

Data Mining é uma tecnologia usada para revelar informação estratégica escondida em grandes massas de dados (KREMER, 1999).

5

Page 6: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOS

6

Page 7: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSPOR QUÊ DATAMINING? Grandes quantidades de dados (bases de

dados) Conhecimento dos mercados / clientes

Sectores muito dependentes da informação banca, seguros, telecomunicações, retalho

Forte pressão competitiva Vantagem económica

Respostas mais rápidas Produtividade

Personalização em massa Promoção directa em função das compras

Automação de tarefas /Apoio à decisão Detecção de fraude

7

Page 8: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSEVOLUÇÃO

8

E v o lu çã o P e rg u n ta s T ecn o lo g ia d isp o n ív e l C a ra cte ríst ica s

C o le ç ão d ed ad o s1 9 6 0

“Q u a l fo i m eurend im e nto to ta l no s

ú lt im o s c in co ano s ?”

C o m p u tad o res , F itas ,d isco s

R e tro sp ec t iva ,D ad o s es tá t ico sco m o resp o sta

A ce sso s ao sd ad o s1 9 8 0

“Q u a l fo i m eurend im e nto no B rasil no

ú lt im o ja ne iro ?”

R D B M S ,S Q L ,

O D B C

R est ro p ect iva ,d ad o s d inâ m ico s a

n ív e l d e reg isto sco m o resp o sta

D a taw areho u s ing& su p o rte a

d ec isão1 9 9 0

“Q u a l fo i m eurend im e nto no B rasil noú lt im o ja ne iro ? D o su l

a té o no rd este

P ro cessa m e nto ana lít icoo n- lin e , ba nco d e d ado sm u lt id im e n c io na is , d a ta

w areho u s ing

R e tro sp ec t iva , d ad o s d inâ m ico s

e m m ú lt ip lo s n ív e isco m o resp o sta

D a ta M in in gA tu a lm e nte

“P o rq u e a lg u n s p ro d u to ssão m a is ve nd id o s na

reg ião su l ?”

A lg o r itm o s av a nçad o s,co m p u tad o res

m u lt ip ro cessad o s , B .D .g rand es e p o d e ro so s

P ro sp ec t ivo ,In fo r m açõ es

(p e rsp ec t iva s)co m o re sp o sta .

Page 9: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSEXEMPLO

9

Fabricante Estado Cidade Cor do Produto LucroS m ith C A L o s A ng e les A zu l A ltoS m ith A Z F lag sta ff V erd e B a ixo

A d am s N Y N Y C A zu l A ltoA d am s A Z F lag sta ff V erm elho B a ixo

Jo hnso n N Y N Y C V erd e M éd io Jo hnso n C A L o s A ng e les V erm elho M éd io

Produtos azuis são de alto lucroou

Arizona é um lucro baixo?

Page 10: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSEXEMPLO

10

Fabricante Estado Cidade Cor do Produto LucroS m ith C A L o s A ng e les A zu l A ltoS m ith A Z F lag sta ff V erd e B a ixo

A d am s N Y N Y C A zu l A ltoA d am s A Z F lag sta ff V erm elho B a ixo

Jo hnso n N Y N Y C V erd e M éd io Jo hnso n C A L o s A ng e les V erm elho M éd io

Page 11: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSOBJETIVO O processo de Extração de Conhecimento de

Base de Dados tem o objetivo de encontrar conhecimento a partir de um conjunto de dados para ser utilizado em um processo decisório.

Um requisito importante é que esse conhecimento descoberto seja compreensível a humanos, além de útil e interessante para os usuários finais do processo.

Procura de padrões úteis em grandes quantidades de dados padrão: motivo que se repete com alguma frequência útil: o padrão deve servir para resolver um problema

11

Page 12: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSOBJETIVO

12

Page 13: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS

Dados Padrões Processo Válidos Novos Úteis Compreensíveis Conhecimento

A união desses conceitos define o processo de Mineração de Dados.

13

Page 14: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - DADOS Conjunto de fatos ou casos em um

repositório de dados. Por exemplo, os dados correspondem aos valores dos campos de um registro de vendas em uma Base de dados qualquer;

14

Fabricante Estado Cidade Cor do Produto LucroS m ith C A L o s A ng e les A zu l A ltoS m ith A Z F lag staff V erd e B aixo

A d am s N Y N Y C A zu l A ltoA d am s A Z F lag staff V erm elho B aixo

Jo hnso n N Y N Y C V erd e M éd io Jo hnso n C A L o s A ng e les V erm elho M éd io

Page 15: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - PADRÕES Denota alguma abstração de um subconjunto

dos dados em alguma linguagem descritiva de conceitos;

Padrões são unidades de informação que se repetem.

A tarefa de localizar padrões não é privilégio da mineração de dados. O cérebro dos seres humanos utiliza-se de processos similares, pois muito do conhecimento que temos em nossa mente é, de certa forma, um processo que depende da localização de padrões

15EX: ABCXYABCZKABDKCABCTUABEWLABCWO

Page 16: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - PROCESSO A Extração de Conhecimento de Base de

Dados envolve diversas etapas como a preparação dos dados, busca por padrões e avaliação do conhecimento;

16

Page 17: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - VÁLIDOS Os padrões descobertos devem possuir

algum grau de certeza,ou seja, devem satisfazer funções ou limiares que garantem que os exemplos cobertos e os casos relacionados ao padrão encontrado sejam aceitáveis;

17

Page 18: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - NOVOS Um padrão encontrado deve fornecer novas

informações sobre os dados. O grau de novidade serve para determinar quão novo ou inédito é um padrão. Pode ser medido por meio de comparações entre as mudanças ocorridas nos dados ou no conhecimento anterior;

18

Page 19: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - ÚTEIS Os padrões descobertos devem ser

incorporados para serem utilizados

19

Page 20: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - COMPREENSÍVEIS Um dos objetivos de realizar MD é encontrar

padrões descritos em alguma linguagem que pode ser compreendida pelos usuários permitindo uma análise mais profunda dos dados;

20

Page 21: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - CONHECIMENTO O conhecimento é definido em termos

dependentes do dominio que estão relacionados fortemente com medidas de utilildade, originalidade e compreensão

21

Page 22: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS Todo o processo de Mineração de Dados é

orientado em função de seu conhecimento de aplicação e dos reposotórios de dados inerentes aos mesmos.

Para usar os dados é necessário que estejam estruturados de forma a serem consultados e analisados adequadamente.

22

Page 23: Tópicos de  I.A.

EXERCÍCIO - PRÁTICO

23

se x o ID A C IV ES C O L P R O F H D O R M A C T IV D ES P T A B A L C C A F P e so A L T IM C C o le stm 40anos c E s tS uperiores s up 8ha10h pouc a nao nao bebe s im 70a60K g m 160 norm al a l tof 40anos c 12ano int 6ha8h pouc a s im nao bebe s im 70a60K g m 150 ex c es s opes o baix of 50anos s 9C las s e s up 6ha8h pouc a nao nao nao s im 50a60K g m 150 norm al baix om 60anos c 4C las s e s em i-qua l 6ha8h pouc a nao ex bebe nao m ais 80 m 160 ex c es s opes o m ediof 60anos c 4C las s e s em -prof m enos 6h algum a nao nao nao s im 50a60K g m 150 ex c es s opes o m ediof 50anos c E s tS uperiores s up 8ha10h pouc a s im nao oc as s im 50a60K g m 150 norm al m ediom 40anos c 4C las s e es p-m an m ais 10h algum a nao ex bebe s im m ais 80 m 170 ex c es s opes o baix om 40anos c E s tS uperiores s up 6ha8h nenhum a s im ex bebe s im 70a60K g m 170 norm al baix om 40anos c 4C las s e es p-n-m an 6ha8h pouc a s im nao bebe s im 80a70k g m 160 ex c es s opes o m ediom 60anos c E s tS uperiores s up 8ha10h nenhum a s im ex bebe s im m ais 80 m 170 ex c es s opes o m ediom 60anos c 4C las s e s em i-qua l 8ha10h pouc a nao ex ex s im 70a60K g m 180 norm al a l tom 50anos c 9C las s e es p-n-m an 8ha10h pouc a nao nao bebe s im 70a60K g m 150 ex c es s opes o m ediof 40anos v 4C las s e es p-n-m an 8ha10h nenhum a nao nao nao s im 50a60K g m 160 norm al baix om 40anos c 9C las s e es p-n-m an 6ha8h nenhum a s im fum a bebe s im m ais 80 m 160 obes idade al tof 50anos c 12ano int 6ha8h algum a s im ex bebe s im 70a60K g m 150 ex c es s opes o m ediom 50anos c 12ano int 6ha8h pouc a s im nao bebe s im 80a70k g m 170 norm al m ediom 40anos d E s tS uperiores s up 6ha8h pouc a s im fum a bebe s im 70a60K g m 160 norm al a l to

1 – Construir uma visão em árvore baseado nos dados acima.2 – Tirar no mínimo duas conclusões apartir dessa visão.

Page 24: Tópicos de  I.A.

24

M

F

40 anos50

anos

60 anos

baixo

baixo

médio

médio

40 anos50

anos

60 anos

baixo

alto

médio

médio

médioalto

SEXO IDADE COLESTEROL

Page 25: Tópicos de  I.A.

Todos os Homens de 50 anos tem o colesterol médio

Todas as Mulheres de 40 anos tem o colesterol baixo

25

Page 26: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS Existme diversas abordagens para a divisão das

etapas do processo de Extração de Conhecimento de Base de Dados.

Aguns autores dividem o processo em quatro, seis ou nove etapas, dependendo do autor.

Porém existem três grandes etapas: Pré-processamento, Extração de Padrões e Pós-Processamento

O processo de MD é centrado na interação entre as diversas classes de usuários, e o seu sucesso depende, em parte, dessa interação. (Classes: Especialista do Domínio, Analista e Usuário Final) 26

Page 27: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS

27

Page 28: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS

28

Page 29: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOSINDENTIFICAÇÃO DO PROBLEMA:

O estudo do domínio da aplicação e a definição de objetivos e metas a serem alcançados no processo de Mineração de Dados são identificados nesta fase.

Questões importantes que devem ser respondidads nesta fase: Quais são as principais metas do processo? Quais critérios de desempenho são importantes? O conhecimento estraído deve ser compreensível a seres

humanos ou um modelo do tipo caixa-preta é apropriado? Qual deve ser a relação entre simplicidade e precisão do

conhecimento extraído? 29

Page 30: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOSPRÉ-PROCESSAMENTO:

Normalmente, os dados disponíveis para análise não estão em um formatoa dequado para a Extração de Conhecimento.

Diversas transformações nos dados podem ser executadas nesta etapa: Extração e Integração; Transformação; Limpeza; Seleção e Redução de Dados

30

Page 31: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOSEXTRAÇÃO DE PADRÕES:

Esta etapa é direcionada ao cumprimento dos objetivos definidos na Identificação do Problema.

É realizada a escolha, a configuração e execução de um ou mais algoritmos para extração de conhecimento.

Compreende a escolha da: tarefa de Mineração de Dados a ser empregada, a escolha do algoritmo e a extração dos padrões propriamente dita.

31

Page 32: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOSPÓS-PROCESSAMENTO:

A obtenção do conhecimento não é o passo final do processo de Extração de Conhecimento de Bases de Dados.

O conhecimento extraído pode ser utilizado na resolução de problemas da vida real. Para isso é importante responder algumas questões aos usuários: O conhecimento extraído representa o conhecimento do

especialista? De que maneira o conhecimento do especialista difere do

conhecimento extraído? Em que parte o conhecimento do especialista está

correto? 32

Page 33: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSTÉCINCAS E FERRAMENTAS USADAS EM MINERAÇÃO DE DADOS

ALGUMAS TÉCNICAS:

Análise Estatística; Aprendizado de Máquina; Algoritmos Genéticos; Clustering; Lógica Fuzzy; Regras e Árvores de Decisão; Redes Neurais.

33

Page 34: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSTÉCINCAS E FERRAMENTAS USADAS EM MINERAÇÃO DE DADOSALGUMAS FERRAMENTAS:

Enterprise Miner, ferramenta de data mining do SAS Microsoft SQL Server, ferramenta originalmente de banco de

dados que a cada nova versão tem ganho novas funcionalidades de Business Intelligence. Possui 8 algorítmos na versão do SQL Server 2008 e sua plataforma é extensível para integração de outros algorítmos desenvolvidos.

IlliMine Projeto de mineração de dados escrito em C++. InfoCodex Aplicação de mineração de dados com uma base de

dados linguística. KDB2000 Uma ferramenta livre em C++ que integra acesso à

bases de dados, pre-processamento, técnicas de transformação e um vasto escopo de algoritmos de mineração de dados.

KXEN Ferramenta de mineração de dados comercial, utiliza conceitos do Profesor Vladimir Vapnik como Minimização de Risco Estruturada (Structured Risk Minimization ou SRM) e outros.

34

Page 35: Tópicos de  I.A.

DATA MINING – MINERAÇÃO DE DADOSTÉCINCAS E FERRAMENTAS USADAS EM MINERAÇÃO DE DADOS KNIME Plataforma de mineração de dados aberta que implementa

o paradigma de pipelining de dados. Baseada no eclipse LingPipe API em Java para mineração em textos distribuída com

código-fonte. MDR Ferramenta livre em Java para detecção de interações entre

atributos utilizando o método da multifactor dimensionality reduction (MDR).

Orange Tookit livre em Python para mineração de dados e aprendizado de máquina.

Pimiento Um ambiente para mineração em textos baseado em Java.

PolyaAnalyst Ambiente que permite a montagem de fluxos para mineração de dados e texto.

Tanagra Software livre de mineração de dados e estatística. WEKA Software livre em java para mineração de dados. Cortex Intelligence Sistema de PLN para mineração de textos

aplicado à Inteligência Competitiva 35

Page 36: Tópicos de  I.A.

SAS ENTERPRISE MINER Presente em 110 países, com mais de 40

mil instalações, a SAS no Brasil é o parceiro de negócios líder de mercado na oferta de soluções para a gestão corporativa baseada em inteligência.

36

Page 37: Tópicos de  I.A.

37

Page 38: Tópicos de  I.A.

38

Page 39: Tópicos de  I.A.

39

Page 40: Tópicos de  I.A.

IBM INTELLIGENT MINER O Intelligent Miner, uma poderosa

ferramenta para análise de dados integrada. As tradicionais técnicas de mineração de dados (análise de 40 agrupamentos, análise de afinidades, classificação, estimativa e previsão) são suportadas. Adicionalmente, ricos componentes de apresentação estão disponíveis para possibilitar uma análise visual dos resultados.

40

Page 41: Tópicos de  I.A.

41

Page 42: Tópicos de  I.A.

42

Page 43: Tópicos de  I.A.

43

Page 44: Tópicos de  I.A.

44

Page 45: Tópicos de  I.A.

ORACLE DARWIN DATA MINING SOFTWARE poderosa ferramenta de mineração de

dados que ajuda a transformar gigantes massas de dados em inteligência corporativa. Darwin ajuda a encontrar padrões significativos e correlações em dados corporativos. Padrões que permitem um melhor entendimento e previsão do comportamento de clientes.

45

Page 46: Tópicos de  I.A.

46

Page 47: Tópicos de  I.A.

47

Page 48: Tópicos de  I.A.

48

Page 49: Tópicos de  I.A.

EXERCÍCIO DE FIXAÇÃO:

49