Mineração de dados_escobar2.0

Mineração de Dados

Seminário

Aluno Leandro Escobar

Professora Dra Denise Tsunoda

min

eraç

ão d

e d

ado

s CONTEXTO

O volume de dados armazenados ultrapassa a capacidade de análise de pesquisadores e analistas;A capacidade de integração de diferentes bases de dados aprofunda este limite, trazendo mais desafios

Por exemplo:- Um paciente de UTI tem, em média, 7 indicadores de vida monitorados a cada 2

minutos.- Quantos indicadores são monitorados em todos os leitos de uma UTI por dia?

- Quais são as principais causas de baixa qualidade na montagem de motores de automóveis? Quantos dados sobre a montagem de motores são ou podem ser coletados ao ano?

- Quantas pessoas elogiam ou reclamam sobre um determinado fabricante nas redes sociais? O que elas estão dizendo?

- Quantas pessoas compraram em uma rede de mercados? Quem são elas, o que elas compram?

min

eraç

ão d

e d

ado

s CONTEXTO

Dado: - Símbolos que representam a observação do mundo real ou virtual.- Não possuem significado- Por exemplo, defina o que é

- João- 100

Informação:- Atribuição de significado aos dados = transmutação do dado em significado- Por exemplo:

- Cliente: João da Silva- Saldo em conta corrente = R$ 100,00

Conhecimento:- Significado contextualizado e carregado de possibilidades práticas.- Permite a tomada de decisão- Por exemplo:

- Dias para o final do mês = 22- Saldo para consumo = R$ 1.000- Média de consumo diário = R$ 80,00- E agora?????

min

eraç

ão d

e d

ado

s MINERAÇÃO DE DADOS

Aplicação de algoritmos para encontrar padrões e relações em bancos de dados, apoiando a descoberta de novos conhecimentos para a gestão ou a pesquisa (REZENDE, 2005).

• O conhecimento a ser descoberto deve:– Ser correto– Compreensível por humanos– Interessante, útil, novo– Eficiente, acurado:

• Matemática = exatidão de uma tabela ou expressão• Física = Propriedade de uma grandeza que foi obtida por processos ou instrumentos

isentos de erro

– Genérico• Aplicável a vários tipos de dados e situações

– Flexível• Facilmente modificável

(STEINER et al, 2006)

A tomada de decisão precisa estar alicerçada em argumentos baseados em conhecimentos básicos da área aplicada, bem como na informação, regularidade e tendências extraídas dos dados (COLLAZZOS, 2002).

min

eraç

ão d

e d

ado

s MODELOS E TAREFAS DE MINERAÇÃO DE DADOS

Mineração de dados

Descritiva

Preditiva

AgrupamentoClustering

Regras de AssociaçãoAssociation Rules

SumarizaçãoSummarization

ClassificaçãoClassification

RegressãoRegretion

min

eraç

ão d

e d

ado

s MODELOS E TAREFAS

Classificação: Categorizar dados em classes

Determinar o risco de fraudes;

Identificar a melhor forma de tratamento de um paciente.

Regressão: Definir um valor para variáveis contínuas desconhecidas

Estimar a probabilidade de morte de um paciente

Prever a demanda para um novo produto

Associação: Determinar quais itens tendem a estarem juntos em uma mesma transação

Determinar quais os produtos são adquiridos simultaneamente em uma transação.

Agrupamento: Partição de uma população heterogênea em vários subgrupos ou grupos mais homogêneos

Agrupar clientes com comportamento de compra similar;

Agrupar seções de usuários Web para prever comportamento futuro de usuário.

Sumarização: Mapear os dados em classes com descrições simplificadas

Caracterizar os alunos de um curso (por Sexo e Faixa etária);

Generalizar os defeitos de telefonia em classes simplificadas (por horário e tipo de defeito).

min

eraç

ão d

e d

ado

s KDD – KNOWLEDGE DISCOVERY IN DATA BASES

• Processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados é composto de cinco etapas

Fayyad, Piatetsky-Shapiro e Smyth (1996)

min

eraç

ão d

e d

ado

s DESAFIOS COMUNS APRESENTADOS

• Explorar os dados (com métodos estatísticos) contribui para a melhoria da acurácia dos resultados da mineração de dados (STEINER, 2006)

• Integração de diferentes bases de dados (VIANNA, 2010) – passa a ser um desafio à mineração de dados por conta da distribuição de atributos em diferentes repositórios

• Os dados devem ser coletados corretamente, justificados e criticados para que se possa evitar a necessidade de dispensar muito tempo na sua preparação (COLLAZOS, 2002)

• Utilizar protocolos específicos para avaliar e validar a eficiência das soluções / resultados da mineração de dados (LE et al 2011)

min

eraç

ão d

e d

ado

s DIFICULDADES FREQUENTES

• Determinação dos atributos alvo

– Descobrir atributos relevantes que possam sustentar uma hipótese sobre o modelo a ser obtido

• Ausência de dados

– Dados relevantes para a identificação de padrões podem não estar disponíveis para todas as instâncias.

– Alguns dados não são preenchidos porque não são inquiridos/coletados.

DISCUSSÃO: Dispor de dados completos para tomada de decisão frente às dinâmicas sociais e econômicas atuais é um grande desafio, uma vez que a velocidade da mudança é maior que a velocidade de construção de sistemas

min

eraç

ão d

e d

ado

s EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO

• Estabelecer uma correlação estatística entre atributos de dados e conjuntos de dados.

• Encontrar um conjunto de itens frequentes em registros ou transações de dados e identificar a influência desses conjuntos na presença de outro conjunto

• Se x então y

• Traduzindo:

• O Produto A foi adquirido em 90% das transações, destas, 45% também adquiriram o Produto B

Produto B <-- Produto A (Suporte= 90%| Confiança = 45%)

Consequente Antecedente Métricas da Regra

min

eraç

ão d

e d

ado


• Traduza a seguinte regra de associação, retirada de uma base de dados de desempenho acadêmico

Análise_de_dados=Rep <-- Estatística=Rep

(S= 95%; C=98%)

• Este padrão é surpreendente?? Por quê?

min

eraç

ão d

e d

ado


• Considere uma loja de cervejas. Abaixo, está uma amostra dos itens que compõem os carrinhos de compra.

• Qual é a relação entre SKOL e BOHEMIA?

• Calcular o SUPORTE da SKOL = X / N– X = número de repetições do item na base

– N = total de registros na base

– 4/7 = 57%

• Calcular a Confiança “SKOL e BOHEMIA” = XUY / X– XUY = repetições do conjunto (Skol e Bohemia)

– 2/4 = 50%

• BOHEMIA <- SKOL (S=57%; C=50%)

# Transação

1 Skol, Bohemia, Devassa

2 Original. Bohemia, Eisenbahn, Budwiser

3 Skol, Polar, Spoler, Kaiser

4 Kaiser, Spoler, Bhrama

5 Original, Budweiser

6 Sol, Skol, Bhrama

7 Skol, Bohemia, Budweiser

min

eraç

ão d

e d

ado

s EXERCÍCIO PRÁTICO: REGRAS DE ASSOCIAÇÃO

• Qual é a relação entre KAISER, SPOLER e BHRAMA?

• Calcular o SUPORTE de “KAISER e SPOLER”= X / N

– X = número de repetições do item na base

– N = total de registros na base

• Calcular a Confiança “SKOL e SPOLER” e BHRAMA = XUY / X

– XUY = repetições do conjunto

• R: ?

# Transação

1 Skol, Bohemia, Devassa

2 Original. Bohemia, Eisenbahn, Budwiser

3 Skol, Polar, Spoler, Kaiser

4 Kaiser, Spoler, Bhrama

5 Original, Budweiser

6 Sol, Skol, Bhrama

7 Skol, Bohemia, Budweiser

min

eraç

ão d

e d

ado

s

DEMONSTRAÇÃO DO ALGORÍTMO APRIORI

min

eraç

ão d

e d

ado

s

MUITO OBRIGADO!

Mineração de dados_escobar2.0

Technology

Transcript of Mineração de dados_escobar2.0