Mineração de dados_escobar2.0
-
Upload
leandro-escobar -
Category
Technology
-
view
156 -
download
2
description
Transcript of Mineração de dados_escobar2.0
min
eraç
ão d
e d
ado
s CONTEXTO
O volume de dados armazenados ultrapassa a capacidade de análise de pesquisadores e analistas;A capacidade de integração de diferentes bases de dados aprofunda este limite, trazendo mais desafios
Por exemplo:- Um paciente de UTI tem, em média, 7 indicadores de vida monitorados a cada 2
minutos.- Quantos indicadores são monitorados em todos os leitos de uma UTI por dia?
- Quais são as principais causas de baixa qualidade na montagem de motores de automóveis? Quantos dados sobre a montagem de motores são ou podem ser coletados ao ano?
- Quantas pessoas elogiam ou reclamam sobre um determinado fabricante nas redes sociais? O que elas estão dizendo?
- Quantas pessoas compraram em uma rede de mercados? Quem são elas, o que elas compram?
min
eraç
ão d
e d
ado
s CONTEXTO
Dado: - Símbolos que representam a observação do mundo real ou virtual.- Não possuem significado- Por exemplo, defina o que é
- João- 100
Informação:- Atribuição de significado aos dados = transmutação do dado em significado- Por exemplo:
- Cliente: João da Silva- Saldo em conta corrente = R$ 100,00
Conhecimento:- Significado contextualizado e carregado de possibilidades práticas.- Permite a tomada de decisão- Por exemplo:
- Dias para o final do mês = 22- Saldo para consumo = R$ 1.000- Média de consumo diário = R$ 80,00- E agora?????
min
eraç
ão d
e d
ado
s MINERAÇÃO DE DADOS
Aplicação de algoritmos para encontrar padrões e relações em bancos de dados, apoiando a descoberta de novos conhecimentos para a gestão ou a pesquisa (REZENDE, 2005).
• O conhecimento a ser descoberto deve:– Ser correto– Compreensível por humanos– Interessante, útil, novo– Eficiente, acurado:
• Matemática = exatidão de uma tabela ou expressão• Física = Propriedade de uma grandeza que foi obtida por processos ou instrumentos
isentos de erro
– Genérico• Aplicável a vários tipos de dados e situações
– Flexível• Facilmente modificável
(STEINER et al, 2006)
A tomada de decisão precisa estar alicerçada em argumentos baseados em conhecimentos básicos da área aplicada, bem como na informação, regularidade e tendências extraídas dos dados (COLLAZZOS, 2002).
min
eraç
ão d
e d
ado
s MODELOS E TAREFAS DE MINERAÇÃO DE DADOS
Mineração de dados
Descritiva
Preditiva
AgrupamentoClustering
Regras de AssociaçãoAssociation Rules
SumarizaçãoSummarization
ClassificaçãoClassification
RegressãoRegretion
min
eraç
ão d
e d
ado
s MODELOS E TAREFAS
Classificação: Categorizar dados em classes
Determinar o risco de fraudes;
Identificar a melhor forma de tratamento de um paciente.
Regressão: Definir um valor para variáveis contínuas desconhecidas
Estimar a probabilidade de morte de um paciente
Prever a demanda para um novo produto
Associação: Determinar quais itens tendem a estarem juntos em uma mesma transação
Determinar quais os produtos são adquiridos simultaneamente em uma transação.
Agrupamento: Partição de uma população heterogênea em vários subgrupos ou grupos mais homogêneos
Agrupar clientes com comportamento de compra similar;
Agrupar seções de usuários Web para prever comportamento futuro de usuário.
Sumarização: Mapear os dados em classes com descrições simplificadas
Caracterizar os alunos de um curso (por Sexo e Faixa etária);
Generalizar os defeitos de telefonia em classes simplificadas (por horário e tipo de defeito).
min
eraç
ão d
e d
ado
s KDD – KNOWLEDGE DISCOVERY IN DATA BASES
• Processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados é composto de cinco etapas
Fayyad, Piatetsky-Shapiro e Smyth (1996)
min
eraç
ão d
e d
ado
s DESAFIOS COMUNS APRESENTADOS
• Explorar os dados (com métodos estatísticos) contribui para a melhoria da acurácia dos resultados da mineração de dados (STEINER, 2006)
• Integração de diferentes bases de dados (VIANNA, 2010) – passa a ser um desafio à mineração de dados por conta da distribuição de atributos em diferentes repositórios
• Os dados devem ser coletados corretamente, justificados e criticados para que se possa evitar a necessidade de dispensar muito tempo na sua preparação (COLLAZOS, 2002)
• Utilizar protocolos específicos para avaliar e validar a eficiência das soluções / resultados da mineração de dados (LE et al 2011)
min
eraç
ão d
e d
ado
s DIFICULDADES FREQUENTES
• Determinação dos atributos alvo
– Descobrir atributos relevantes que possam sustentar uma hipótese sobre o modelo a ser obtido
• Ausência de dados
– Dados relevantes para a identificação de padrões podem não estar disponíveis para todas as instâncias.
– Alguns dados não são preenchidos porque não são inquiridos/coletados.
DISCUSSÃO: Dispor de dados completos para tomada de decisão frente às dinâmicas sociais e econômicas atuais é um grande desafio, uma vez que a velocidade da mudança é maior que a velocidade de construção de sistemas
min
eraç
ão d
e d
ado
s EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Estabelecer uma correlação estatística entre atributos de dados e conjuntos de dados.
• Encontrar um conjunto de itens frequentes em registros ou transações de dados e identificar a influência desses conjuntos na presença de outro conjunto
• Se x então y
• Traduzindo:
• O Produto A foi adquirido em 90% das transações, destas, 45% também adquiriram o Produto B
Produto B <-- Produto A (Suporte= 90%| Confiança = 45%)
Consequente Antecedente Métricas da Regra
min
eraç
ão d
e d
ado
s EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Traduza a seguinte regra de associação, retirada de uma base de dados de desempenho acadêmico
Análise_de_dados=Rep <-- Estatística=Rep
(S= 95%; C=98%)
• Este padrão é surpreendente?? Por quê?
min
eraç
ão d
e d
ado
s EXEMPLO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Considere uma loja de cervejas. Abaixo, está uma amostra dos itens que compõem os carrinhos de compra.
• Qual é a relação entre SKOL e BOHEMIA?
• Calcular o SUPORTE da SKOL = X / N– X = número de repetições do item na base
– N = total de registros na base
– 4/7 = 57%
• Calcular a Confiança “SKOL e BOHEMIA” = XUY / X– XUY = repetições do conjunto (Skol e Bohemia)
– 2/4 = 50%
• BOHEMIA <- SKOL (S=57%; C=50%)
# Transação
1 Skol, Bohemia, Devassa
2 Original. Bohemia, Eisenbahn, Budwiser
3 Skol, Polar, Spoler, Kaiser
4 Kaiser, Spoler, Bhrama
5 Original, Budweiser
6 Sol, Skol, Bhrama
7 Skol, Bohemia, Budweiser
min
eraç
ão d
e d
ado
s EXERCÍCIO PRÁTICO: REGRAS DE ASSOCIAÇÃO
• Qual é a relação entre KAISER, SPOLER e BHRAMA?
• Calcular o SUPORTE de “KAISER e SPOLER”= X / N
– X = número de repetições do item na base
– N = total de registros na base
• Calcular a Confiança “SKOL e SPOLER” e BHRAMA = XUY / X
– XUY = repetições do conjunto
• R: ?
# Transação
1 Skol, Bohemia, Devassa
2 Original. Bohemia, Eisenbahn, Budwiser
3 Skol, Polar, Spoler, Kaiser
4 Kaiser, Spoler, Bhrama
5 Original, Budweiser
6 Sol, Skol, Bhrama
7 Skol, Bohemia, Budweiser