Post on 07-Apr-2016
1
SEMINÁRIO – (Primeira avaliação)
Mecanismos de Valores Ausentes.
Ferramentas e Algoritmos Automatizados para Geração de Valores Ausentes
PPGEE – Programa de Pós-Graduação em Engenharia ElétricaPPGEE0138 – MINERAÇÃO DE DADOS
G3: Arilson Galdino da Silva, Daniel Martins, Marcio Nirlando, Lino Cesar.
12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
2º Semestre de 2014Prof. Dr. Ádamo Santana
Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
2
Valores ausentesO que fazer com valores ausentes:
1. Omitir as amostras com valores ausentes?2. Substituir os “ausentes” por um valor possível?3. Procurar significado no fato de que um valor
estar ausente?
Os mineradores tratam valores ausentes mas cada um pode aplicar soluções diferentes resultados diferentes.
12/09/2014
Prob
lem
ática
312/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
Exemplo da representação de dados ausentes no WEKA (modo “edit”)
(O arquivo .raff usa “?”)Algumas re
presentações:
NaN , -1 , ?
, “ “
, NA
Padrões ou Tipos Característicos de Ausência
1. MCAR – Missing Completely At Random: a ausência de dados é completamente aleatória. A observação dos dados ausentes não sugere nenhum método de tentativa de recuperação. MCAR significa que o mecanismo que produz o dado ausente não está relacionado com qualquer variável na análise.
2. MAR – Missing At Random: Os valores ausentes dependem de algumas variáveis na análise mas, para aquelas variáveis, não têm nenhuma relação com os dados observados para aquele atributo.
3. NMAR – Not Missing At Random. NMAR significa que a ausência de dados depende, de fato, dos valores observados.
Prob
lem
ática
4
Soluções simples (que nem sempre funcionam) [Stef Van Buuren] 1 - Listwise deletion. 2 – Pairwise deletion.3 – Mean imputation. 4 - Regression imputation.5 – Stochastic regression imputation 6 - LOCF BOCF.
1. ELIMINAÇÃO PELA LISTA (Listwise Deletion) - Modo default de manipulação de dados incompletos em muitos pacotes estatísticos incluindo SPSS, SAS, STATA e S-PLUS e R. Remove todas amostras que contenham dados ausentes.• Vantagem – Conveniência. Para dados do tipo MCAR, este modo
costuma produzir erros e significados incorretos para o subconjunto de dados restantes da eliminação.
• Desvantagem – É um desperdício em potencial degradando a habilidade de se encontrar efeitos de interesse. Para dados diferentes de MCAR, pode polarizar severamente a estimativa de média e os coeficientes de regressão e correlação.
12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
MCA
R
Anál
ise
de d
ados
Disc
reto
s / co
ntún
uos
5
Soluções simples (que nem sempre funcionam) [Stef Van Buuren]
2. ELIMINAÇÃO POR PARES (Pairwise Deletion)- São eliminadas apenas as amostras relacionadas a cada par de atributos onde ambos estejam com dados ausentes. • Vantagem – Conveniência. Para dados do tipo MCAR, este modo
costuma produzir erros e significados incorretos para o subconjunto de dados restantes da eliminação.
• Desvantagem – É um desperdício em potencial degradando a habilidade de se encontrar efeitos de interesse. Para dados diferentes de MCAR, pode polarizar severamente a estimativa de média e os coeficientes de regressão e correlação.
12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
MCA
R
Anál
ise
de d
ados
Disc
reto
s / co
ntún
uos
6
Soluções (que nem sempre funcionam) [Stef Van Buuren]
3. SUBSTITUIÇÃO PELA MÉDIA/MODA (Mean imputation) - Uma maneira razoável de substituir dados omitidos é substituí-los pelo valor médio para valores numéricos ou pela moda ou o valor mais frequente, para valores simbólicos.• Desvantagens - Distorce a distribuição deslocando a média e
correlação. Pode subestimar penosamente a variância e perturbar as relações entre as variáveis.
• Vantagens – Fácil de implementar.
Só é recomendável seu uso se o número de dados ausentes é pequeno e para ajustes iniciais da BD.
12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
Anál
ise
de d
ados
Disc
reto
s / co
ntún
uos
7
Soluções (que nem sempre funcionam) [Stef Van Buuren]
4. SUBSTITUIÇÃO PELA REGRESSÃO (Regression Imputation – Incorpora conhecimento de outros atributos de forma a produzir substituições mais inteligentes.
12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
Como fica a distribuição da frequência da ocorrência do ozônio com valores ausentes.
Substituição pela média Substituição pela regressão
Anál
ise
de d
ados
Disc
reto
s / co
ntún
uos
8
Soluções (que nem sempre funcionam) [Stef Van Buuren]
5. SUBSTITUIÇÃO PELA REGRESSÃO ESTOCÁSTICA (Stochastic Regression Imputation) – É um refinamento da substituição por valores obtidos pela regressão, onde ruído é adicionado às predições.
Um exemplo da distribuição de frequência das amostras é mostrado abaixo:
12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
Anál
ise
de d
ados
Disc
reto
s / co
ntún
uos
9
Soluções (usadas por laboratórios de análises clínicas) [Buuren]
6. SUBSTITUIÇÃO PELO ÚLTIMO VALOR OBSERVADO - LOCF (Last Observation Carried Forward) – A idéia é substituir o valor ausente pelo último não ausente.Vantagem: Aproveita todo o data-set (usado pelo FDA).
Desvantagem: Provoca polarização nos dois sentidos, à esquerda e à direita do valor padrão ou médio.
12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
[Stef Van Buuren]
SUBSTITUIÇÃO PELA LINHA BASE - BOCF (Baseline Observation Carried Forward) : substituição pelo valor mais razoável.
Anál
ise
de d
ados
Disc
reto
s / co
ntún
uos
10
SOFTWARE ESPECÍFICO PARA TRATAMENTO DE AUSÊNCIA DE DADOS
STATA - Data Analysis And Statistical Software. http://www.stata.com/why-use-stata/ ($295)
SPSS – Software de Análise de Predição.
MVA - Módulo MVA (missing value analysis) do SPSS – http://www-01.ibm.com/software/analytics/spss/products/statistics/
Quick-R - Parte do software de mineração R. http://www.statmethods.net/input/missingdata.html
SOLAS – é um software específico para trabalho com dados incompletos ou ausentes. (nQuery Advisor - 7-day Free Trial) – Acadêmico $695.00 http://www.statsols.com/products/solas-for-missing-data/12/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
Ferr
amen
tas
1112/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
SOFTWARES PARA TRATAMENTO DE AUSÊNCIA DE DADOS R Data Miner – Usamos a biblioteca Amelia.
Orange – Orange Canvas Version 2.7.3 – Encontrado em: http://orange.biolab.si/download/
Oracle – http://www.oracle.com/index.html
Rapid-Miner – http://rapidminer.com/
Ferr
amen
tas
1212/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
Exem
plo
de A
plic
ação
# Leitura do dataset com dados ausentesa <- "C:\\Users\\Daniel\\Dropbox\\UFPA\\PPGEE0138 - Mineracao de Dados\\MISSING_DATA\\R-DataMiner\\FREETRADE\\freetrade.csv"freetrade <- read.csv(a,sep=";",dec=".")# Carrega a biblioteca Amelia (se for o caso)require(Amelia)# Apresenta a variável freetradedata(freetrade)# Solicita um resumo da base carregadasummary(freetrade)# Apresenta um resumo para o tratamento listwise deletion summary(lm(tariff ~ polity + pop + gdp_pc + year + country,data = freetrade))# Realiza uma imputacao multipla na base freetrade a.out <- amelia(freetrade, m = 5, ts = "year", cs = "country")# lista a variavel de saida das imputacoesa.out# Plota histograma da terceira imputacaohist(a.out$imputations[[3]]$tariff, col="grey", border="white")# Salvando os datasets com dados imputados em um arquivo Rsave(a.out, file = "imputations.RData")# Salvando os datasets em arquivo próprio (no caso 5 arquivos outdataX.csv serão criados)write.amelia(obj=a.out, file.stem = "outdata")
EXEMPLO DO USO DA BIBLIOTECA Amelia PARA MÚLTIPLA IMPUTAÇÃO
Scrip
t par
a Im
puta
ção
Honaker / King / Blackwellhttp://www.jstatsoft.org/v45/i07/
1312/09/2014
Arquivo original Resultado da primeira imputação
Valor da primeira amostra da variável tariff para cada uma das 5 imputações Expectation-Maximization - EM Algorithm
Fonte: wikipedia
1412/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
Exem
plo
de A
plic
ação
Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
1512/09/2014
Exem
plo
de A
plic
ação
Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
1612/09/2014
IMPUTAÇÃO USANDO A MÉDIA
IMPUTAÇÃO USANDO A MODELO
IMPUTAÇÃO USANDO VALORES ALEATÓRIOS
REMOÇÃO DE DADOS AUSENTES
Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
1712/09/2014
ORIGINAL IMPUTADO COM MÉDIA IMPUTADO COM MODELO
IMPUTAÇÃO ALEATÓRIA REMOÇÃO DADOS AUSENTES
Oracle Data Miner Classic
Oracle database 11g r1 ou superiorOracle Sql developerPlataforma: WindowsImportação de dados via: .csv, .txt, .tab, .xlsImputação pela: moda, média, mínimo,
máximo, k-means, regressão e classificação.
Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
2512/09/2014
Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
2612/09/2014
Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
2712/09/2014
2812/09/2014 Mecanismos de valores ausentes e ferramentas/algoritmos automatizados ara geração de valores ausentes
BIBLIOGRAFIA
1. SAGE Publications - "Dealing With Missing Data", Encontrado em: http://www.sagepub.com/upm-data/45664_6.pd.
2. Idre - Institute of Digital Research And Education - "SPSS Learning Module Missing data“. Encontrado em: http://www.ats.ucla.edu/stat/spss/modules/missing.htm.
3. Melissa Humphries - Population Research Center - "Missing Data & How to Deal: An overview of missing data“. Encontrado em: Https://www.utexas.edu/cola/centers/prc/_files/cs/Missing-Data.
4. Joop J. Hox - "A Review of Current Software for Handling Missing Data". Kwantitatieve Methoden (1999). Encontrado em: http://joophox.net/publist/misrevkm.pdf
5. Stef van Buuren - "Flexible Imputation of Missing Data". ISBN-13: 978-1439868249. (Conseguimos uma leitura parcial pelo google academic).
6. SOLAS Version 4.0 – Missing Data, Encontrado em: http://www.statsols.com/wp-content/uploads/2013/12/Solas-4-Manual1.pdf
7. Orange Canvas Version 2.7.3 – Encontrado em: http://orange.biolab.si/download/
Obrigado.