Download - Descoberta de Conhecimento em - univasf.edu.br

Transcript

Page 1: Descoberta de Conhecimento em - univasf.edu.br

Page 2: Descoberta de Conhecimento em - univasf.edu.br

Descoberta de Conhecimento em Bancos de Dados - KDD

Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial

Page 3: Descoberta de Conhecimento em - univasf.edu.br

Tópicos

1. Definições

2. Fases do processo

3. Tarefas Básicas de Data Mining

4. Comparações

5. Ferramenta Tanagra

Page 4: Descoberta de Conhecimento em - univasf.edu.br

Descoberta de Conhecimento em Bancos de Dados - KDD

A descoberta de conhecimento em bancos de dados (Knowledge Discovery in Databases- KDD) é um processo que envolve desde a preparação da base de dados até a apresentação do conhecimento deles extraído pelas técnicas de mineração.

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Page 5: Descoberta de Conhecimento em - univasf.edu.br

Descoberta de Conhecimento em Bancos de Dados - KDD

KDD é uma atividade multidisciplinar que se fundamenta em 3 áreas da computação:

•Data WareHouse (DW): oferece os dados com a visão histórica adequada tanto à extração de conhecimento quanto à apresentação de resultados

•Data Mining (DM): agrupa os dados, otimiza classificações, estimativas e previsões faz associações e extrai o conhecimento implícito nos dados (regras do negócio)

•On-Line Analytical Processing (OLAP) / Mining (OLAM): Ambientes de consulta que apresentam os resultados tanto das consultas diretas ao Data WareHouse quanto das respostas da mineração dos dados contidos no Data WareHouse.

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Page 6: Descoberta de Conhecimento em - univasf.edu.br

Descoberta de Conhecimento em Bancos de Dados - KDD

A definição do termo Knowledge Discovery in Databases (KDD) foi introduzida por Fayyad et al. como parte de um processo ainda mais amplo de Data Mining.

Knowledge Discovery in Databases (KDD) ou Descoberta do Conhecimento em Bases de Dados é um processo não trivial, iterativo, interativo e com múltiplos estágios que manipula e transforma os dados no intuito de descobrir padrões relevantes. Fayyad et al. identificaram cinco estágios do processo de KDD:

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Page 7: Descoberta de Conhecimento em - univasf.edu.br

Descoberta de Conhecimento em Bancos de Dados - KDD

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Page 8: Descoberta de Conhecimento em - univasf.edu.br

Seleção

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Seleção dos dados: também chamado de amostragem dos dados, é o processo que define quais serão os dados a serem minerados no projeto. Os dados podem ser selecionados das mais diversas fontes de dados, tais como: banco de dados relacional, arquivo texto legado, dentre outros.

Page 9: Descoberta de Conhecimento em - univasf.edu.br

Pré-processamento

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Pré-processamento dos dados: é nesta fase que os dados são organizados e as inconsistências e integração são tratadas.

Mudança de granularidade, Tratamento de Missing Value e OutLiers

Page 10: Descoberta de Conhecimento em - univasf.edu.br

Transformação

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Transformação dos dados: que consiste na transformação dos dados brutos em dados transformados para aplicação da técnica inteligente. Esta fase depende do algoritmo a ser aplicado na fase seguinte.

Page 11: Descoberta de Conhecimento em - univasf.edu.br

Data Mining

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Data Mining: também conhecido como algoritmo de aprendizagem, esta fase aplica a técnica inteligente para extração do conhecimento. Na fase seguinte, é aplicado o algoritmo minerador, como por exemplo: redes neurais, árvores de decisão, análise de clustering, dentre outros.

Page 12: Descoberta de Conhecimento em - univasf.edu.br

Avaliação

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Interpretação dos Resultados: Por fim, vem a fase de validação do conhecimento minerado, onde o especialista do domínio de aplicação é fundamental para homologação do conhecimento adquirido, pois nesta fase são validados todos os resultados obtidos no projeto

Page 13: Descoberta de Conhecimento em - univasf.edu.br

Tarefas Básicas de Data Mining

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Agrupamento • Identificação de grupos de indivíduos/registros que têm

perfis semelhantes

Regressão • Estimação de valores contínuos na resposta do sistema

Classificação • Decisão do sistema categorizando cada indivíduo/registro

em uma classe pré-definida

Extração de regras de associação e de classificação • Apresentação de relações entre as variáveis de entrada e

entre as variáveis de entrada e as respostas do sistema

Page 14: Descoberta de Conhecimento em - univasf.edu.br

Comparações/Perguntas

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Os gestores de uma instituição necessitam de informações sobre o estado atual e tendências de seus negócios. On-line Analytical Processing (OLAP) oferece analises de dados através do agrupamento e contagem das freqüências destes dados, e desta forma responde a perguntas do tipo:

Page 15: Descoberta de Conhecimento em - univasf.edu.br

Comparações/Perguntas

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

• Quais são as características dos meus clientes mais freqüentes?

• Quais são os produtos mais vendidos?

• Qual a duração média de internamento de um paciente no hospital?

Page 16: Descoberta de Conhecimento em - univasf.edu.br

Comparações/Perguntas

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Os gestores precisam de mais informações para tomar uma melhor decisão. Outros tipos de perguntas devem ser respondidos nestes relatórios, como por exemplo:

• Quais clientes são mais propensos a deixarem minha carteira nos próximos seis meses?

• Quais clientes são mais propensos a ficarem inadimplentes?

• Quais clientes são mais propensos a serem internados?

Page 17: Descoberta de Conhecimento em - univasf.edu.br

Ferramenta Tanagra

Univasf – Inteligência Artificial – Prof.: Rosalvo Neto

Tanagra é um programa gratuito para fins acadêmicos e de pesquisa. Ele propõe aos seus usuários vários métodos de exploração e análise de dados, de aprendizagem estatística, aprendizado de máquinas e área de banco de dados

http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html