Técnicas de Pre-processamento
Baseadas no livro de Pyle e no livro de J. Han (cap 3)
Por que o Pre-processamento Dados são problemáticos:
Incompletos: faltam valores, faltam certos atributos de interesse, ou contém dados agregados
Ruídos: contém erros ou outliers Inconsistente: contém discrepâncias em códigos ou
nomes Sem qualidade dos dados – não há resultados
Decisoes de qualidade devem ser baseadas em dados de qualidade
DW precisa de integração consistente de dados de qualidade
Tarefas principais de pre-processamento de dados
Limpeza de dadosPreencher valores nulos, tratar ruídos, identificar ou
remover outliers e resolver inconsistências Integração de Dados Transformação de dados
normalização e agregação Redução de dados Discretização dos dados
Redução de dados com uma particular importância para dados numéricos
Formas de pre-processamento
Limpeza de dados Tarefas de limpeza de dados
Preencher valores ausentes Suavizar o ruído Identificar valores outliers Identificar inconsistências
Valores ausentes Dados não estão disponíveis A ausência de dados pode ser
conseqüência de: Mau funcionamento do equipamento Não entrada de dados Inconsistência com outros dados registrados e
assim o dado torna-se ausente Certos dados não são considerados importantes Engano na entrada de dados
Como lidar com valores ausentes
Ignorar a tupla Preencher os valores ausentes manualmente
(tedioso) Usar uma constante global para representar o
valor ausente. Ex. “desconhecido” – uma nova classe
Usar a média Usar a média por classe Usar o valor mais provável baseada por
inferência (fórmula bayesiana ou árvore de decisão)
Dados com ruídos Ruído: erro aleatório Valores incorretos devido a:
Problemas com instrumentos de entrada de dados Problemas de transmissão de dados Limitação tecnológica Não segui o mesmo padrão
Problemas de dados que requerem limpeza de dados Registros duplicados Dados incompletos Dados inconsistentes
Como manusear dados com ruídos 1/4 Método binning para suavizar os dados
É a distribuição dos dados ordenados em caixas tendo como referencia os seus vizinhos
Ordenação: 1 1 2 3 3 3 4 5 5 7Particionamento em caixas 112 333 4557Suavizar pela mediana111 333 5555
Como manusear dados com ruídos 2/4
Ordernar dados: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
Particionar em caixas (bins): - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34Suavizar pela mediana - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29Suavizar pela fronteira - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34
Como manusear dados com ruídos 3/4 Clusterização: detecção e remoção de
valores outliers Os valores são organizados em grupos.
Valores isolados são considerados outliers
Como manusear dados com ruídos 4/4
Regressão: os dados podem ser suavizados pelo ajustamento a uma função (p.ex. regressão linear)
x
y = x + 1
X1
Y1
Y1’
Integração de Dados É a fusão de dados a partir de diferentes fontes
em uma única fonte consistente Integração de Esquema
Integrar metadados de diferentes fontes Problema de identificação das entidades
Detectando e resolvendo conflitos de valores de dados Para a mesma entidade valores de atributos de
diferentes fontes são diferentes Razoes: representações diferentes, escalas
diferentes, ex. temperatura em C ou F / Peso(libras ou em quilos)/ altura (valor numérico ou categórico)
Lidando com dados redundantes na integração de dados Dados redundantes aparecem quando há
integração de multiplos BDs O mesmo atributo deve ter diferentes nomes Um atributo pode ser um atributo derivado em
outra tabela Dados redundantes são detectados por
analise correlacional Integração cuidadosa de dados a partir das
fontes múltiplas ajudam a reduzir / evitar inconsistencias e melhorar a qualidade e velocidade da mineração
Transformação de Dados 1/2 Objetivo: obter os dados em uma forma
mais apropriada para a mineração Suavizar – remover ruído dos dados Agregação: sumários de dados (soma,
etc) quando construir cubos de dados Generalização: dados primitivos são
substituídos por conceitos de ordem superior via uma hierarquia de conceitos. Ex. valores do atributo idade mapeados para jovem, meia-idade
Transformação de Dados 2/2 Construção de novos atributos Normalização – minimizar os
problemas relacionados ao de unidades e dispersões distintas entre as variáveis
As variáveis podem ser normalizadas segundo a amplitude ou segundo a distribuição
Transformação dos dados: Normalização 1/2 Normalização segundo a amplitude
Unidades diferentes ou dispersões muito heterogêneas
Normalização min-max
AAA
AA
A
minnewminnewmaxnewminmax
minvv _)__('
Transformação dos dados: Normalização 2/2 Normalização segundo a distribuição Interessante em situações como:
remoção de distorções de valores outliers, obtenção de simetria, etc.
x
)xlog(x1
Redução de Dados Razoes: obter uma representação
reduzida dos dados muito menor que produz o mesmo resultado analítico
Vantagens: Redução do tempo de aprendizagem Interpretação mais fácil dos conceitos
aprendidos
Redução de Dados Estratégias para a redução de dados
Agregação via cubo Redução de dimensão Compressão de dados Discretização
Redução de Dados - dimensão• Em data mining a supressão de uma coluna (atributo)
é muito mais delicada do que a supressão de uma linha (observação)
• Retirar atributos relevantes ou permanecer com atributos irrelevantes pode implicar na descoberta de padrões de baixa qualidade
• Necessidade de um estágio de seleção de atributos• Uma abordagem para a seleção é a manual, baseada
em conhecimento especialista
Redução de Dados - dimensão
• Algumas abordagens automáticas de seleção de variáveisseleção do menor conjunto de atributos• Selecionar o menor conjunto de atributos suficiente para dividir o
espaço as instancias de tal maneira que a distribuição das classes no novo espaço é tão próxima quanto possível daquela do espaço original
• Problemas: busca exaustiva e overfitting• Algoritmo de construção de árvores de decisão• Aplicar esse algoritmo nos dados completos e então
selecionar apenas as variáveis presentes na árvore de decisão
Conjunto inicial de atributos:{A1, A2, A3, A4, A5, A6}
A4 ?
A1? A6?
Class 1 Class 2 Class 1 Class 2
> Conjunto reduzido de atributos: {A1, A4, A6}
Redução de dados – uso de árvores de decisão
Altura = 1,70
maiormenor
homemmulherhomemmulher
Redução de DadosSeleção por busca no espaço de atributos
•Existem 2d possíveis sub-conjuntos de a partir de d atributos•Várias heurísticas para a seleção de variáveis•Seleção forward: a busca é iniciada sem atributos e os mesmos são adicionados um. Cada atributo é adicionado isoladamente e o conjunto resultante é avaliado segundo um critério. O atributo que produz o melhor critério é incorporado.
•Eliminação backward: a busca é iniciada com o conjunto completo de atributos e os mesmos são suprimidos um de cada vez. Cada atributo é suprimido isoladamente e o conjunto resultante é avaliado segundo um critério. O atributo que produz o melhor critério é finalmente suprimido
•Combinação da seleção forward com a eliminação backward
Compressão de Dados
Essas técnicas comprimem os dados originais
Dados originaisDados
Comprimidos
Sem perda
Aproximação dosdados originais
Com perda
Compressão de Dados
Extração de Variáveis
Objetivo:obter novas variáveis à partir dos atributos iniciais. Em geral as novas variáveis sãocombinações lineares das variáveis iniciais Limitações: modelo linear (não adequado especialmente para para os métodos de data mining baseados em lógica)
Essas técnicas são úteis também para tratar a redundância de informações(correlação entre variáveis) e ruído
As técnicas de redução de dimensões se propõem a reduzir o númerode variáveis com a menor perda possível de informações
Compressão de Dados
Extração de Variáveis
Métodos não supervisionados:Análise de Componentes Principais (variáveis quantitativas)Análise de Correspondências (variáveis qualitativas)
A primeira componente é a combinação linear das variáveis iniciais de maior variância (maximiza a separação entre os indivíduos). A segunda componente é ortogonal a primeira (correlação nula), é também combinação linear das variáveis iniciais e apresenta a segunda maior variância. E assim por diante.
Famílias de MétodosMétodos não supervisionadosMétodos supervisionados
Compressão de Dados
Extração de Variáveis
X1
X2
Y1Y2
Compressão de Dados
Extração de Variáveis
Métodos supervisionados
Análise Fatorial Discriminante
A primeira componente é a combinação linear das variáveis iniciais que melhorsepara os grupos entre si, isto é, ela toma valores os mais próximos possíveispara os indivíduos de um mesmo grupo e os mais diferentes para indivíduos degrupos distintos.A segunda componente é a combinação linear das variáveisiniciais ortogonal a primeira (correlação nula) que melhor separa os gruposentre si. E assim por diante.
Redução de Casos
Redução do volume de dados via representação econômica dos mesmos Métodos paramétricos
Supõe que os dados ajustam um modelo, estimam os parâmetros do modelo, armazena apenas os parâmetros e descarrega os dados (exceto os aberrantes)
Principais modelos: regressão (simples e multipla) e modelo log-linear
Métodos não paramétricos Não assume modelos Famílias principais: histogramas, clustering,
amostragem
Redução de Casos
Regressão e modelos log-linear
Regressão linear: os dados são modelados para se ajustarem a uma linha reta
Em geral usa o método dos quadrados mínimos para ajustar a linha
Regressão múltipla: permite que uma variável resposta seja modelada como uma função linear de um vetor de atributos
Modelo Log-linear : aproxima distribuições de probabilidade discretas multidimensionais
Redução de Casos
Histogramas
Particiona os dados em caixas e armazena a frequencia média dos valores
Em uma dimensão pode ser construido pela otimização de um critério via programação dinâmica 0
5
10
15
20
25
30
35
40
10000 30000 50000 70000 90000
Redução de Casos
Clustering
Os dados são particionados em clusters e
armazena-se apenas a representação do mesmo
Pode ser muito eficaz se os dados são agrupados
mas não se estão apenas sujos
Existem muitas opções de métodos de e
algoritmos de agrupamento
Redução de Casos
Amostragem
Permite que os algoritmos de mineração tratem enormes bases de dados pela redução dos casos
Tipos de Amostragem: Amostragem aleatória simples com reposição
Amostragem aleatória simples sem reposição
Amostragem estratificada
Amostragem por conglomerado
Redução de Casos
Amostragem
Duas formas básicas de amostragem são interessantes nocontexto da mineração de dados:
Amostragens incrementais
Amostragens seguida de voto
Redução de Casos
Amostragem incremental
O treinamento é realizado em amostras aleatórias cada vez maiores decasos, observar a tendência e parar quando não há mais progresso
Um padrão típico de tamanhos de amostras pode ser 10%, 20%, 33%, 50%, 67% e100%
Critérios para passar para uma outra amostra
O erro diminuiu?A complexidade do tratamento aumentou mais do que a queda da taxa de erro?A complexidade da solução atual é aceitável para a interpretação?
Redução de Casos
Amostragem seguida de voto
O mesmo método de mineração é aplicado para diferentes amostrasde mesmo tamanho resultando em uma solução para cada amostra
Quando um novo caso aparece, cada solução fornece uma resposta.
A reposta final é obtida por votação (classificação) ou pela média(regressão)
Interesse: quando o método de mineração suporta apenas N casos
Discretização e Construção de Hierarquias
Interesse: redução do numero de valores.Muito interessante em árvores de decisão
Discretização reduz o número de valores de um dado atributo contínuo
pela divisão da amplitude do atributo em intervalos. Os rótulos dos intevalos substituem os valores.
Hierarquias Conceituais reduz os dados pela substituição de rótulos de nível
inferior (como os valores numéricos do atributo idade) por rótulos de nível superior (tais como jovem, meia-idade, etc)
Discretização e Construção de Hierarquias
Ferramentas
Alisamento
Histograma
Clustering
Discretização baseada em entropia
Segmentação via particionamento “natural”
Discretização e Construção de Hierarquias
Abordagens para a discretização de intervalos:
discretização não supervisionadadiscretização supervisionada
Discretização não supervisionada
a discretização é realizada sem levar em conta os grupos a que pertencem as instâncias no conjunto de treinamento
Discretização supervisionada
a discretização é realizada levando em conta os grupos a que pertencem asinstâncias no conjunto de treinamento
Discretização e Construção de Hierarquias
•Partição em intervalos iguaisriscos: escolher fronteiras que colocam juntas muitas instancias de diferentesclasses; intervalos sem nenhuma instancia outras com muitas
•Partição por efetivos iguaisriscos: escolher fronteiras que colocam juntas muitas instancias de diferentesclasses
•Partição em intervalos arbitrários
•Partição por minimização da variância
Técnicas de Discretização não supervisionada
Discretização e Construção de Hierarquias
•Discretização divisiva (top-down)
Exemplo: procura recursiva da partição binária que minimizao ganho de entropia
•Discretização aglomerativa (bottom-up)
Exemplo: isolar cada instancia em um intervalo e em seguidafusionar intervalos segundo um critério estatístico
Técnicas de Discretização supervisionada
Hierarquias de conceitos para dados categóricos
Especificação explícita de uma ordem parcial dos atributos ao nível do esquema pelos usuários e/ou especialistas
Especificação de uma porção de hierarquia via agrupamento
de dados
Especificação do conjunto de atributos, mas não da ordem
parcial
Especificação de um conjunto de atributos parcialmente
Hierarquias de conceitos para dados categóricos
Hierarquia conceitual pode ser gerada automaticamente com base no número de valores distintos por atributo. O atributo com o maior número de valores distintos é colocado no nível mais baixo da hierarquia.
Pais
Estado
Cidade
Rua
15 valores distintos
65 volores distintos
3567 valores distintos
674,339 valores distintos
Resumo Preparação de dados é uma grande tarefa
para warehousing e mineração Preparação de dados incluem
Limpeza de dados e integração de dados Redução de dados e seleção de características Discretização
Muitos métodos estão sendo desenvolvidos mas ainda é uma área bastante ativa
Top Related