Tratamento de Valores Ausentes

Valores AusentesAlgoritmos e estratgias para tratamento

G4: Edinaldo de Alencar / Igor Freire / Ramon Arajo / Ricardo Ribeiro

Disciplina: Minerao de Dados (PPGEE 0138) - 2 Semestre/2014

Introduo Mecanismos de valores ausentes O que fazer com VAs Tcnicas de Imputao Imputao por Mdia e Moda Imputao Local

kNN - Vizinhos mais prximos Imputao por Maximizao da Esperana Aplicaes

R Weka

Agenda

Valores ausentes: Omisso de dados pela prpria fonte de informao Atributo no aplicvel Evento no aconteceu Dados indisponveis ou muito difceis de serem obtidos

Exemplo: Questionrio

Introduo

Mecanismos de Valores Ausentes Completamente Aleatrios (MCAR - Missing Completely at

Random) Probabilidade de uma amostra (instncia) ter um VA

independente dos valores na base de dados. Aleatrios (MAR - Missing at Random)

Probabilidade de uma amostra (instncia) ter um VA depende dos valores observveis (coletados) na base.

No aleatrios (MNAR - Missing Not at Random) Probabilidade de uma amostra (instncia) ter um VA depende

do prprio valor ausente.

Exemplo:

Mecanismos de Valores Ausentes

Mecanismos de Valores Ausentes Observaes: A maioria dos mtodos de imputao assume valores

ausentes completamente aleatrios (MCAR). dificil identificar a distribuio de probabilidade dos valores

ausentes, principalmente os VAs do tipo NMAR.

Poucos algoritmos de imputao supem valores ausentes NMAR. A maioria dos algoritmos supe VAs MCAR ou MAR.

O que fazer com valores ausentes?Alternativas:1. Ignorar instncias contendo VAs (listwise deletion)

Tcnica conservadora, no cria dados Problema: pode ocasionar perda de informaes relevantes

2. Substituio de valores ausentes (imputao) Substituio de VAs por valores provveis Estimao dos valores utilizando o conjunto de dados Mtodo utilizado para imputao independente do algoritmo

de aprendizagem de mquina utilizado

Tcnicas de Imputao Imputao pela mdia ou moda (Mean-mode Imputation - MMImpute)

Mdia para atributos numricos Moda para atributos categricos Problema: varincia pode tornar-se subestimada

Imputao local: por Hot-deck ou Cold-deck Em contraste ao MMImpute, substitui valores diferentes para cada

valor ausente Passos do Algoritmo:

i. Clusterizao das amostras da base de dadosii. Associao das instncias com VAs aos clusters mais prximosiii. Substituio dos VAs por valores baseados nas instncias

completas (sem VAs) do cluster a que pertencem

Tcnicas de Imputao Mtodos Preditivos:

Atributo que contm os VAs definido como atributo classe e os demais atributos so utilizados para computao de um modelo

Baseado no modelo, faz-se a predio dos VAs Exemplos:

rvores de Deciso (para atributos categricos) Nave Bayes Regresso

Imputao pela Mdia ou Moda (MMImpute)

A mdia uma estimativa razovel para variveis com distribuio de probabilidades normal.

aconselhvel a utilizao para uma base de dados com poucos valores ausentes do tipo MCAR.

Aplicvel tanto para valores categricos (moda) quanto numricos (mdia), contnuos ou discretos.

Imputao pela Mdia ou Moda (MMImpute)

Imputao local

Escolaridade Filhos Carro Renda Mensal

Superior 2 Sim R$6.000,00

Mdio 2 No R$1.500,00



Mdio 1 No R$1.200,00


Superior 2 Sim NA

Instncia com VA:

Imputao Hot-deck ou Cold-deck Hot e Cold diferem quanto ao processo de agrupamento - Cold

utiliza base de dados disjunta para formar clusters Exemplo: Vizinhos mais prximos (K-Nearest Neighbors - kNNImpute)

Exemplo:

Escolaridade Filhos Carro Renda Mensal


Mdio 2 No R$1.500,00



Mdio 1 No R$1.200,00


Superior 2 Sim NA

Instncia com VA:

Imputao Hot-deck ou Cold-deck Hot e Cold diferem quanto ao processo de agrupamento - Cold

utiliza base de dados disjunta para formar clusters Exemplo: Vizinhos mais prximos (K-Nearest Neighbors - kNNImpute)

Clu

ster

Valor substitudo: mdia entre as rendas das instncias do cluster

NA

Exemplo:

Substitudo por R$7.750,00

Imputao local

Imputao kNN - Vizinhos mais prximos Exemplo ilustrativo:

Vantagens: Pode lidar com atributos numricos e nominais. No necessita do treinamento de um modelo para cada atributo com

valores ausentes (lazy learner). Pode lidar com instncias com vrios valores ausentes.

Desvantagem: Necessidade de percorrer toda a base para encontrar os vizinhos mais

prximos para cada instncia com valor ausente.

Imputao kNN - Vizinhos mais prximos

Imputao kNN - Vizinhos mais prximos Algoritmo:

Escolha do nmero de vizinhos (k): Relao de compromisso entre vis e

varincia.

Tendncia com a diminuio de k: Aumento da varincia Diminuio do vis

Tendncia com o aumento de k: Diminuio da varincia Aumento do vis

Imputao kNN - Vizinhos mais prximos

Imputao EM (Expectation Maximization) Schafer: Se soubssemos os parmetros do modelo dos dados, seria possvel

obtermos predies no-tendenciosas (unbiased) dos valores ausentes. O modelo estatstico dos dados estimado por meio da maximizao da funo

log-verossimilhana.

Sistema de equaes complexo Soluo Iterativa1: Etapa de Expectativa (Passo E)

2: Etapa de Maximizao (Passo M)

Supera as deficincias do MMImpute e substituio por regresso.

Problemtico para ausncias de dados MNAR, e MAR com mais do que 20% de dados ausentes.

Opera com base de dados numrica, real/discreta.

Algoritmo preliminar em tcnicas mais complexas (imputao mltipla).

Imputao EM (Expectation Maximization)

Referncias SILVA, J. A. Substituio de valores ausentes: uma abordagem baseada em um algoritmo

evolutivo para agrupamento de dados. Dissertao ICMC-USP, Abr. 2010.

THIRUKUMARAN, S.; SUMATHI, A. Missing Value Imputation Techniques Depth Survey And an Imputation Algorithm To Improve The Efficiency Of Imputation. 2012 Fourth International Conference on Advanced Computing (ICoAC), Dec. 2012.

ACOCK, Alan C. Working with Missing Values. Journal of Marriage and Family 67.4(2005).

SCHAFER, Joseph L.; GRAHAM, J. W. Missing data: Our View of the State of the Art. Psychological methods 7.2 (2002): 147.

Tratamento de Valores Ausentes

Documents

Transcript of Tratamento de Valores Ausentes