Tratamento de Valores Ausentes
-
Upload
ramon-araujo -
Category
Documents
-
view
11 -
download
1
description
Transcript of Tratamento de Valores Ausentes
-
Valores AusentesAlgoritmos e estratgias para tratamento
G4: Edinaldo de Alencar / Igor Freire / Ramon Arajo / Ricardo Ribeiro
Disciplina: Minerao de Dados (PPGEE 0138) - 2 Semestre/2014
-
Introduo Mecanismos de valores ausentes O que fazer com VAs Tcnicas de Imputao Imputao por Mdia e Moda Imputao Local
kNN - Vizinhos mais prximos Imputao por Maximizao da Esperana Aplicaes
R Weka
Agenda
-
Valores ausentes: Omisso de dados pela prpria fonte de informao Atributo no aplicvel Evento no aconteceu Dados indisponveis ou muito difceis de serem obtidos
Exemplo: Questionrio
Introduo
-
Mecanismos de Valores Ausentes Completamente Aleatrios (MCAR - Missing Completely at
Random) Probabilidade de uma amostra (instncia) ter um VA
independente dos valores na base de dados. Aleatrios (MAR - Missing at Random)
Probabilidade de uma amostra (instncia) ter um VA depende dos valores observveis (coletados) na base.
No aleatrios (MNAR - Missing Not at Random) Probabilidade de uma amostra (instncia) ter um VA depende
do prprio valor ausente.
-
Exemplo:
Mecanismos de Valores Ausentes
-
Mecanismos de Valores Ausentes Observaes: A maioria dos mtodos de imputao assume valores
ausentes completamente aleatrios (MCAR). dificil identificar a distribuio de probabilidade dos valores
ausentes, principalmente os VAs do tipo NMAR.
Poucos algoritmos de imputao supem valores ausentes NMAR. A maioria dos algoritmos supe VAs MCAR ou MAR.
-
O que fazer com valores ausentes?Alternativas:1. Ignorar instncias contendo VAs (listwise deletion)
Tcnica conservadora, no cria dados Problema: pode ocasionar perda de informaes relevantes
2. Substituio de valores ausentes (imputao) Substituio de VAs por valores provveis Estimao dos valores utilizando o conjunto de dados Mtodo utilizado para imputao independente do algoritmo
de aprendizagem de mquina utilizado
-
Tcnicas de Imputao Imputao pela mdia ou moda (Mean-mode Imputation - MMImpute)
Mdia para atributos numricos Moda para atributos categricos Problema: varincia pode tornar-se subestimada
Imputao local: por Hot-deck ou Cold-deck Em contraste ao MMImpute, substitui valores diferentes para cada
valor ausente Passos do Algoritmo:
i. Clusterizao das amostras da base de dadosii. Associao das instncias com VAs aos clusters mais prximosiii. Substituio dos VAs por valores baseados nas instncias
completas (sem VAs) do cluster a que pertencem
-
Tcnicas de Imputao Mtodos Preditivos:
Atributo que contm os VAs definido como atributo classe e os demais atributos so utilizados para computao de um modelo
Baseado no modelo, faz-se a predio dos VAs Exemplos:
rvores de Deciso (para atributos categricos) Nave Bayes Regresso
-
Imputao pela Mdia ou Moda (MMImpute)
A mdia uma estimativa razovel para variveis com distribuio de probabilidades normal.
aconselhvel a utilizao para uma base de dados com poucos valores ausentes do tipo MCAR.
Aplicvel tanto para valores categricos (moda) quanto numricos (mdia), contnuos ou discretos.
-
Imputao pela Mdia ou Moda (MMImpute)
-
Imputao pela Mdia ou Moda (MMImpute)
-
Imputao pela Mdia ou Moda (MMImpute)
-
Imputao local
Escolaridade Filhos Carro Renda Mensal
Superior 2 Sim R$6.000,00
Mdio 2 No R$1.500,00
Superior 0 Sim R$4.500,00
Superior 1 Sim R$5.500,00
Mdio 1 No R$1.200,00
Superior 2 Sim R$7.500,00
Superior 2 Sim NA
Instncia com VA:
Imputao Hot-deck ou Cold-deck Hot e Cold diferem quanto ao processo de agrupamento - Cold
utiliza base de dados disjunta para formar clusters Exemplo: Vizinhos mais prximos (K-Nearest Neighbors - kNNImpute)
Exemplo:
-
Escolaridade Filhos Carro Renda Mensal
Superior 2 Sim R$7.000,00
Mdio 2 No R$1.500,00
Superior 0 Sim R$4.500,00
Superior 1 Sim R$5.500,00
Mdio 1 No R$1.200,00
Superior 2 Sim R$8.500,00
Superior 2 Sim NA
Instncia com VA:
Imputao Hot-deck ou Cold-deck Hot e Cold diferem quanto ao processo de agrupamento - Cold
utiliza base de dados disjunta para formar clusters Exemplo: Vizinhos mais prximos (K-Nearest Neighbors - kNNImpute)
Clu
ster
Valor substitudo: mdia entre as rendas das instncias do cluster
NA
Exemplo:
Substitudo por R$7.750,00
Imputao local
-
Imputao kNN - Vizinhos mais prximos Exemplo ilustrativo:
-
Vantagens: Pode lidar com atributos numricos e nominais. No necessita do treinamento de um modelo para cada atributo com
valores ausentes (lazy learner). Pode lidar com instncias com vrios valores ausentes.
Desvantagem: Necessidade de percorrer toda a base para encontrar os vizinhos mais
prximos para cada instncia com valor ausente.
Imputao kNN - Vizinhos mais prximos
-
Imputao kNN - Vizinhos mais prximos Algoritmo:
-
Escolha do nmero de vizinhos (k): Relao de compromisso entre vis e
varincia.
Tendncia com a diminuio de k: Aumento da varincia Diminuio do vis
Tendncia com o aumento de k: Diminuio da varincia Aumento do vis
Imputao kNN - Vizinhos mais prximos
-
Imputao EM (Expectation Maximization) Schafer: Se soubssemos os parmetros do modelo dos dados, seria possvel
obtermos predies no-tendenciosas (unbiased) dos valores ausentes. O modelo estatstico dos dados estimado por meio da maximizao da funo
log-verossimilhana.
Sistema de equaes complexo Soluo Iterativa1: Etapa de Expectativa (Passo E)
2: Etapa de Maximizao (Passo M)
-
Supera as deficincias do MMImpute e substituio por regresso.
Problemtico para ausncias de dados MNAR, e MAR com mais do que 20% de dados ausentes.
Opera com base de dados numrica, real/discreta.
Algoritmo preliminar em tcnicas mais complexas (imputao mltipla).
Imputao EM (Expectation Maximization)
-
Referncias SILVA, J. A. Substituio de valores ausentes: uma abordagem baseada em um algoritmo
evolutivo para agrupamento de dados. Dissertao ICMC-USP, Abr. 2010.
THIRUKUMARAN, S.; SUMATHI, A. Missing Value Imputation Techniques Depth Survey And an Imputation Algorithm To Improve The Efficiency Of Imputation. 2012 Fourth International Conference on Advanced Computing (ICoAC), Dec. 2012.
ACOCK, Alan C. Working with Missing Values. Journal of Marriage and Family 67.4(2005).
SCHAFER, Joseph L.; GRAHAM, J. W. Missing data: Our View of the State of the Art. Psychological methods 7.2 (2002): 147.