Mineração da Dados
-
Upload
raymond-abbott -
Category
Documents
-
view
22 -
download
0
description
Transcript of Mineração da Dados
![Page 1: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/1.jpg)
Mineração da Dados
![Page 2: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/2.jpg)
2
Entradas: Conceitos, instâncias, atributos
● Terminologia● O que é um conceito?
Classificação, associação, agrupamento, predição numérica● O que é um exemplo?
Relações, arquivos flats, recursão● O que é um atributo?
Nominal, ordinal, intervalo● Preparando a entrada
ARFF, atributos, valores faltando
![Page 3: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/3.jpg)
3
Terminologia
● Componentes da entrada: Conceitos: tipos
● Propósito: descrição inteligível e operacional Instâncias: o exemplo independente do conceito
● Note:entradas mas complicadas são possíveis Atributos: medindo aspectos de uma instância
● Foco em nominais e numéricos
![Page 4: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/4.jpg)
4
O que é um conceito?● Estilo do aprendizado:
Classificação:predição de uma classe discreta
Associação:detecção de associação entre características
Agrupamento (Clustering):agrupamento de instâncias similares em grupos
Predição numérica:predição de um valor numérico
● Conceito: aquilo que se aprende● Descrição do conceito:
saída do esquema de aprendizado
![Page 5: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/5.jpg)
5
Classificação
● Exemplos de problemas: weather, contact lenses, ● A tarefa de Classificação é supervisionada
Os exemplos são fornecidos com a saída esperada● A saída é chamada de classe● Mede-se o sucesso em dados não vistos anteriormente,● porem conhece se a classe ● Na pratica o sucesso é medido de forma subjetiva
![Page 6: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/6.jpg)
6
Associação
● Pode ser aplicada se nenhuma classe é especificada e qualquer tipo de estrutura é considerada interessante
● Diferenças com a classificação: Podem predizer qualquer atributo e mais de um atributo Portanto: existem muito mais regras de associação do que
regras de classificação Assim: restrições são necessárias
● Cobertura mínima e máxima acuracia
![Page 7: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/7.jpg)
7
Agrupamento (Clustering)
● Encontrar grupos de itens que são similares● Agrupamento é não supervisionado
A classe de um exemplo não é conhecida● O sucesso é subjetivo
…
…
…
Iris virginica1.95.12.75.8102
101
52
51
2
1
Iris virginica2.56.03.36.3
Iris versicolor1.54.53.26.4
Iris versicolor1.44.73.27.0
Iris setosa0.21.43.04.9
Iris setosa0.21.43.55.1
TypePetal widthPetal lengthSepal widthSepal length
![Page 8: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/8.jpg)
Exemplo de descrição (I)
Agrupamento Exemplo:
◦ vector quantization;
renda
déb
ito
++
++
+
+
+
+
++
++
+
+
+
+
t
+
+: exemplo
Análise de crédito
Métodos
![Page 9: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/9.jpg)
9
Predição Numerica● Uma variante da classificação na qual a classe é numérica
(também chamada de regressão)● O aprendizado é supervisionado
Os exemplos são fornecidos com o valor alvo● Medida de sucesso nos dados de teste
……………
40FalseNormalMildRainy
55FalseHighHot Overcast
0TrueHighHotSunny
5FalseHighHotSunny
Play-timeWindyHumidityTemperatureOutlook
![Page 10: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/10.jpg)
10
O que é um exemplo?● Instância: tipo especifico de exemplo
● Algo a ser classificado, associado ou agrupado● Individual, exemplo independente do conceito alvo● Caracterizado por um conjunto pre-determinado de
atributos● Entrada do algoritmo de aprendizado: conjunto de
instâncias/bases● Representados como uma relação simples/arquivo flat
![Page 11: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/11.jpg)
11
Uma arvore de familia
=
Steven
M
Graham
M
Pam
F
Grace
F
Ray
M=
Ian
M
Pippa
F
Brian
M=
Anna
F
Nikki
F
Peggy
F
Peter
M
![Page 12: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/12.jpg)
12
Arvore da familia representado como um arquivo
IanPamFemaleNikki
IanPamFemaleAnna
RayGraceMaleBrian
RayGraceFemalePippa
RayGraceMaleIan
PeggyPeterFemalePam
PeggyPeterMaleGraham
PeggyPeterMaleSteven
??FemalePeggy
??MalePeter
parent2Parent1GenderName
![Page 13: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/13.jpg)
13
A relação “Irmão de”
yesAnnaNikki
………
YesNikkiAnna
………
YesPippaIan
………
YesPamSteven
NoGrahamSteven
NoPeterSteven
………
NoStevenPeter
NoPeggyPeter
Sister of?Second personFirst person
NoAll the rest
YesAnnaNikki
YesNikkiAnna
YesPippaBrian
YesPippaIan
YesPamGraham
YesPamSteven
Sister of?Second personFirst person
Assume-se Closed-world
![Page 14: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/14.jpg)
14
Representação completa numa tabela
Ian
Ian
Ray
Ray
Peggy
Peggy
Parent2
Female
Female
Female
Female
Female
Female
Gender
Pam
Pam
Grace
Grace
Peter
Peter
Parent1NameParent2Parent1GenderName
Ian
Ian
Ray
Ray
Peggy
Peggy
Pam
Pam
Grace
Grace
Peter
Peter
Female
Female
Male
Male
Male
Male
NoAll the rest
YesAnnaNikki
YesNikkiAnna
YesPippaBrian
YesPippaIan
YesPamGraham
YesPamSteven
Sisterof?
Second personFirst person
If second person’s gender = femaleand first person’s parent = second person’s parentthen sister-of = yes
![Page 15: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/15.jpg)
15
O que é um atributo?
● Cada instância é descrita como um predefinido conjunto de características, seus atributos
● Porém: o numero de atributos pode variar na pratica● Possível solução: “valores irrelevantes”
● Possíveis tipos de atributos: Nominal, ordinal, intervalos
![Page 16: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/16.jpg)
16
Atributos Nominais
● Os valores são símbolos diferentes● Exemplo: atributo “outlook” da base weather
Valores: “sunny”,”overcast”, e “rainy”● Não existe relação entre os valores nominais (sem ordem
ou medida de distância)● Somente testes de igualdade podem ser realizados
![Page 17: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/17.jpg)
17
Atributos ordinais● Impõe uma ordem nos valores● Porém: não existe distancia nos valores predefinidos● Exemplo:
atributo “temperature” nos dados weather Valores: “hot” > “mild” > “cool”
● Note: adição e subtração não tem sentido● Exemplo de regra:
temperature < hot Þ play = yes● A diferença entre atributos nominais e ordinais não
sempre é clara
![Page 18: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/18.jpg)
18
Quantidades Intervalos
● Os intervalos são ordenados e medidos em unidades fixas e iguais
● Exemplo 1: atributo “temperature” expresso em graus Fahrenheit
● Exemplo 2: atributo “year”● A diferença entre 2 valores faz sentido● A soma ou produto não fazem sentido
![Page 19: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/19.jpg)
19
Atributos
● A maior parte dos algoritmos diferenciam 2 : nominal e ordinal
● Atributos Nominais são também chamados “categorical”, ”enumerated”, ou “discrete”
Porém: “enumerated” e “discrete” implicam em uma ordem
● Caso especial: dicotomia (“boolean” )● Atributos ordinais são chamados de “numeric”, ou
“continuous” Porém: “continuous” implica em continuidade
matematica
![Page 20: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/20.jpg)
20
O formato ARFF
%
% ARFF file for weather data with some numeric features
%
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {true, false}
@attribute play? {yes, no}
@data
sunny, 85, 85, false, no
sunny, 80, 90, true, no
overcast, 83, 86, false, yes
...
![Page 21: Mineração da Dados](https://reader031.fdocumentos.tips/reader031/viewer/2022013004/568130ab550346895d96b7fb/html5/thumbnails/21.jpg)
21
Atributos adicionais
● ARFF suporta atributos string:
Similar a os atributos nominais porém uma lista de valores não é pre-especificada
● Suporta dados tipo data:
Usa o formato ISO-8601
yyyy-MM-dd-THH:mm:ss
@attribute description string
@attribute today date