O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE.
Transcript of O Processo de Preparação de Dados Prof. Francisco de A. T. de Carvalho CIN / UFPE.
O Processo de Preparação de Dados
Prof. Francisco de A. T. de Carvalho
CIN / UFPE
processo de vários estágios onde se usa uma metodologia estruturadapara:
O Processo de Exploração de Dados
•descobrir e avaliar problemas;
•definir soluções e estratégias de implementação
•produzir resultados quantificáveis
•Mineração de Dados•Preparação dos Dados•Inspeção dos Dados•Modelagem dos Dados
Estágios do Processo de Exploração dos Dados
• Exploração do Espaço de Problemas
•Exploração de Espaço de soluções
•Especificação do Método de Implementação
• Exploração do Espaço de Problemas 10•Exploração de Espaço de soluções 9 20•Especificação do Método de Implementação 1•Mineração de Dados
•Preparação dos Dados 60•Inspeção dos Dados 15 80•Modelagem dos Dados 5
Duração de cada estágio (em % do total)
• Exploração do Espaço de Problemas 15•Exploração de Espaço de soluções 14 80•Especificação do Método de Implementação 51•Mineração de Dados
•Preparação dos Dados 15•Inspeção dos Dados 3 20•Modelagem dos Dados 2
Importância de cada estágio (em % do total)
Estágio 1: Exploração do Espaço de Problemas
Identificação dos Problemas
Identificação dos problemas certos à resolver
Definição precisa do problema
Iniciar definindo problemas de uma maneira precisa:•decompor enunciados gerais em componentes menores
Mapa Cognitivo (Cognitive Maps)
Figura com:
•os objetos que constituem o espaço de problemas•as conexões e interações das variáveis
Sol
NuvensTemperaturado oceano
O sol aumenta a temperatura do oceano
O aquecimento do oceano aumentaa quantidade de nuvens
O crescimento da quantidadede nuvens diminui o aquecimento
do oceano
Ordenação Dois a Dois e Construção da matriz doproblema
0.5 0.25 0.25
Problema Importância Dificuldade Retorno
a
b
c
d
e
f
5
2
1
6
3
4
3
1
2
6
4
5
2
4
6
3
1
5
3.75
2.25
2.25
5.25
2.75
4.5
Estágio 2: Exploração do Espaço de Soluções
Especificar que produto é desejado:
•relatórios, mapas, gráficos, programas, planilhas, fórmulas,etc.
O produto deve ser específico o bastante para que a soluçãopossa ser implementada
Estágio 3: Especificação do Método deImplementação
A exploração de dados não é realizada apenas para descobrir
novas visões: trata-se de aplicar os resultados para•aumentar os lucros•melhorar o desempenho•melhorar a qualidade•aumentar a satisfação do cliente•reduzir o desperdício•diminuir as fraudes•etc
Estágio 3: Especificação do Método deImplementação
A especificação da implementação é onde é detalhado como as váriassoluções dos problemas selecionados são realmente aplicadas na pratica
A especificação precisa ser uma definição completa e pratica da solução:•a que problema ela se destina•que forma ela toma•o que fornece•a quem se destina•como ela é realizada•limitações e expectativas•etc
Estágio 4: Minerar os Dados
Minerar os dados é um processo com múltiplos estágios:•preparação dos dados para a modelização•inspeção dos dados•modelização dos dados
Preparação dos Dados para a Modelização
Preparar os dados também prepara o “garimpeiro”: ele fornece modelosmais adequados mais rapidamente
“Bons” dados são essenciais para que os modelos sejam efetivos
As ferramentas de preparação de dados formam uma coleção detécnicas desenvolvidas à partir da experiência na tentativa de “arrumar”os dados e construir modelos “decentes”
Inspeção dos Dados
É durante a inspeção que se determina se os dados são adequadosA inspeção tenta responder três questões: a) O que contém o conjuntode dados? b) A partir dele, obterei respostas as minhas questões?c) Quais são as áreas de perigo?
A inspeção procura a estrutura geral dos dados e relata se ou não háuma quantidade de informações úteis envolvida no conjunto de dados
A inspeção tenta descobrir se a resposta ao problema a ser modeladoestá nos dados antes de investir na construção do modelo
A inspeção tenta identificar as áreas de perigo: viés, escassez,mudanças rápidas
Modelização dos Dados
Trata-se de um processo de transformação das informações presentesnos dados para uma forma compreensível para os usuários
Escolhas Básicas
Objetos do mundo real: carros, arvores, beleza, justiça, etc
Ponto de vista da mineração: um objeto é uma coleção decaracterísticas sobre as quais podem ser realizadas medidas
Objetos
Medidas
O que é possível medir sobre as características: meu carro é azulescuro, 2 portas, 6 cilindros, 5 passageiros
Tipos de Medidas
Uma variável representa uma medida que toma um numero particularde valores, com a possibilidade de valores diferentes para cadaobservação.
Variáveis escalares: são expressas por um valor em determinadaescala.
Variáveis vetoriais: são expressas por mais de um valor
Tipos de Medidas
Uma variável representa uma medida que toma um numero particularde valores, com a possibilidade de valores diferentes para cadaobservação.
Variáveis escalares: são expressas por um valor em determinadaescala.
Variáveis vetoriais: são expressas por mais de um valor
Escalas
Escala Intervalar
Nessa escala, existe não apenas uma ordem entre os valores,mas também existe diferença entre esses valores. O zero érelativo.Ex: Temperatura em Graus Celsius
Nessa escala, além da diferença, tem sentido calcular a proporçãoentre valores (o zero é absoluto).Ex: Peso, Altura, etc.
Escala Proporcional
Cardinalidade dos atributos das variáveis
Qualitativo / quantitativo
Variáveis qualitativas: escalas nominais ou ordinais
Variáveis quantitativas: escalas intervalares e proporcionais
Cardinalidade dos atributos das variáveis
Qualitativo / quantitativo
Variáveis qualitativas: escalas nominais ou ordinais
Variáveis quantitativas: escalas intervalares e proporcionais
Cardinalidade: Discreto versus Continuo
Variáveis dicotômicas Ex: Sexo (M, F)
Valores ausentes e valores inaplicáveis
Um valor ausente é aquele ausente no conjunto de dados masexistente no contexto em que a medida foi realizada
Um valor inaplicável é um valor ausente e inexistente nocontexto em que a medida foi realizada.Ex: Sexo = Masculino e Número de Partos = null
Cardinalidade: Discreto versus Continuo
Variáveis binárias
Em geral são codificadas como “0”, “1”
Variáveis Discretas
Qualquer variável que possui mais de 3 valores distintos.Ex: Departamentos do CIN
“0” em geral indica ausência de propriedade
Ex: Possui antenas? (Sim , não)
Cardinalidade: Discreto versus Continuo
Variáveis contínuas
Podem, em principio, assumir qualquer valor dentro de uma faixa.
Mudança de Escala
Interesse
Muitos modelos só se aplicam à variáveis de mesma escala
Estandardização
Justificativa: unidades diferentes ou dispersões muito heterogêneas
smx
y )a
minmaxminx
y )b
mx
y )c
Mudança de Escala
Intervalar
Ex: Idade O = [0, 150]0-20: jovem; 20-60: adulto; >60: idosoO’={jovem, adulto, idoso}
Trata-se de subdividir O em subintervalos contíguos e associar acada um deles uma modalidade
Ordinal
Mudança de Escala
Intervalar
Perda de informação
Formas de obtenção das modalidades
Ordinal
•Distinção entre objetos de uma mesma categoria
•Amplitude da diferença entre objetos de categorias diferentes
•Partição em intervalos iguais •Partição por efetivos iguais
•Partição em intervalos arbitrários •Partição por minimizaçãoda variância
Mudança de Escala
Ordinal Nominal
Basta desconsiderar a ordem entre as modalidades
Cada modalidade é transformada em uma variável binária
•Codificação disjuntiva
•Codificação aditiva
Ordinal ou Nominal Binária
Mudança de Escala
Cor: 1(verde), 2(azul), 3(marrom)Idade: 1(0-20), 2(20-60), 3(> 60)
Cor Idadew 1 2w’ 2 1
Verde Azul Marrom 0-20 0-60 >60w 1 0 0 1 1 0w’ 0 1 0 1 0 0
Ordinal ou Nominal Binária
Representação de Dados para a Mineração
Representação dos Dados
Tabelas de Dados (flat file): as colunas representam as variáveise as linhas representam as observações