Veri Madenciliği Giriş · 2012. 4. 13. · –CRISP-DM –SEMMA –KDD . Amaçlar •Veri...
Transcript of Veri Madenciliği Giriş · 2012. 4. 13. · –CRISP-DM –SEMMA –KDD . Amaçlar •Veri...
-
Veri Madenciliği - Giriş
Erdem Alparslan
-
Amaçlar
• İş zekasının önemli bir parçası olan veri madenciliğinin tanımı
• İş analizi ve veri madenciliğinin amaçlarının anlaşılması
• Veri madenciliğini kullanan çok çeşitli uygulama alanlarının anlatılması
• Standart veri madenciliği methodolojilerinin öğrenilmesi
– CRISP-DM
– SEMMA
– KDD
-
Amaçlar
• Veri önişlemede gerekli adımların öğrenilmesi
• Veri madenciliğinde kullanılan metod ve algoritmaların öğrenilmesi
• Mevcut veri madenciliği yazılımlarının gözden geçirilmesi
– Ticari ya da açık kaynak kodlu
-
Niçin veri madenciliği?
• Global ölçekte daha iyi rekabet şansı yakalama
• Veri kaynaklarındaki gizli değerin keşfedilebilmesi
• Verideki kalitenin artırılması
• Veri kaynaklarının veri ambarına konsolide edilmesi
• Maliyeti azalan kabiliyeti artan veri önişleme araçlarının artması
• Bilgideki elektronikleşme
-
Tanım
• The nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data stored in structured databases - Fayyad et al., (1996)
• Anahtar kelimeler: Süreç, hemen farkedilmeyen, geçerli, yenilikçi, kullanım potansiyeli olan, anlaşılabilir
• Diğer isimleri: knowledge extraction, pattern analysis, knowledge discovery, information harvesting, pattern searching, data dredging
-
Disiplinlerarası çalışma biçimi
Sta
tistic
s
Management Science &
Information Systems
Artificia
l Inte
lligence
Databases
Pattern
Recognition
Machine
Learning
Mathematical
Modeling
DATA
MINING
-
Veri madenciliği – kısıtlamalar kullanımlar
• VM kaynak verisi genellikle veri ambarıdır (her zaman değil!)
• VM için en önemli hammadde veridir. Bu veri her zaman yapısal olmayabilir.
• Madenci genellikle son kullanıcı olur.
• Çok iyi modeller kurmak yaratıcı düşünce gerektirir.
• VM için kullanılan araç ve ürünler genellikle baz yeteneklere sahiptir
-
Veri Madenciliğinde Veri
• Veri: Gözlemleri, olguların ya da deneylerin sonucunda toplanan yorumlanabilen ölçütlerdir
• Veri sayılardan, metinlerden, görüntülerden ya da çok farklı formlardan oluşabilir
• Bilginin oluşabilmesi için yorumlamaya ihtiyaç duyulan hammaddedir
Data
Categorical Numerical
Nominal Ordinal Interval Ratio
-
What Does DM Do? How Does it Work?
• VM verideki örüntüleri(patern) yakalar
– Patern nedir?
Veri satırları arasında matematiksel, sayısal vb ilintilerden oluşan bir korelasyon bütünüdür
• Patern çeşitleri
– Birliktelik
– Öngörü
– Küme
– Sıralı (ya da zamana göre ardışık) ilişkili
-
Veri Madenciliği Görevlerinin Taksonomisi
Data Mining
Prediction
Classification
Regression
Clustering
Association
Link analysis
Sequence analysis
Learning Method Popular Algorithms
Supervised
Supervised
Supervised
Unsupervised
Unsupervised
Unsupervised
Unsupervised
Decision trees, ANN/MLP, SVM, Rough
sets, Genetic Algorithms
Linear/Nonlinear Regression, Regression
trees, ANN/MLP, SVM
Expectation Maximization, Apriory
Algorithm, Graph-based Matching
Apriory Algorithm, FP-Growth technique
K-means, ANN/SOM
Outlier analysis Unsupervised K-means, Expectation Maximization (EM)
Apriory, OneR, ZeroR, Eclat
Classification and Regression Trees,
ANN, SVM, Genetic Algorithms
-
Veri Madenciliği Uygulamaları
• Müşteri İlişkileri Yönetimi – Pazarlama kampanyalarında getirinin maksimizasyonu
– Müşteri sadakatinin artırılması (churn analizi)
– Müşteri değerinin artırılması(cross- ya da up-selling)
– Platinum müşteri tespiti
• Bankacılık ya da finans sektörü – Kredi başvurusu sürecinin otomatize edilmesi
– Sahtekarlık işlemlerinin tespiti
– Müşteri değerinin artırılması(cross- ya da up-selling)
– Nakit rezervinin optimize edilmesi
-
Veri Madenciliği Uygulamaları
• Lojistik ve taşıma – Farklı lokasyonlardaki envanter seviyelerinin optimizasyonu
– Satış promosyanları ve mağaza görünümünün iyileştirilmesi
– Sezonsal değişimlere göre lojistik optimizasyonu
– Son kullanma tarihi nedeniyle ürün kaybının azaltılması
• Üretim ve bakım – Makine arızalarının erken tespiti
– Üretim kapasitesini etkileyecek makine anormalliklerinin önceden tespiti
– Ürün kalitesini artırıcı yeni paternlerin keşfi
-
Veri Madenciliği Uygulamaları
• Sigortacılık
– Sigorta meblalarının daha iyi tahmin edilmesi
– Optimal sigorta taksitinin belirlenmesi
– Spesifik müşterilere spesifik pazarlama yapılması
– Sahtekarlık olabilecek sigorta işlerinin tespiti
-
Veri Madenciliği Uygulamaları
• Bilgisayar yazılım ve donanımlarında
• Mühendislik ve fen bilimlerinde
• Savunma sanayiinde
• Anayurt güvenliğinde
• Ulaşım endüstrisinde
• Sağlıkta
• İlaçta
• Eğlence endüstrisinde
• Sporda
• Vb.
Oldukça popüler alanlardır
-
Veri Madenciliği Süreci
• En iyi pratiklerin bütününü oluşturmayı hedefler
• VM projelerini sistematik hale getirmeyi hedefler
• Farklı etkileşim grupları birbirine benzer ama ayrı süreçler geliştirmiştir
• En popüler ortak standartlar:
– CRISP-DM (Cross-Industry Standard Process for Data Mining)
– SEMMA (Sample, Explore, Modify, Model, and Assess)
– KDD (Knowledge Discovery in Databases)
-
Data Mining Process
Source: KDNuggets.com, August 2007
-
Data Mining Process: CRISP-DM
Data Sources
Business
Understanding
Data
Preparation
Model
Building
Testing and
Evaluation
Deployment
Data
Understanding
6
1 2
3
5
4
-
Data Mining Process: CRISP-DM
Adım 1: İş probleminin tespiti
Adım 2: Veri nin anlaşılması
Adım 3: Veri hazırlama (!)
Adım 4: Model oluşturma
Adım 5: Test ve iyileştirme
Adım 6: Canlı ortama alış
• Süreç hem döngüzel hem de artımsal ilerler
Proje süresinin %85
kısmı
-
Veri Ön hazırlık – kritik bir görev
Data Consolidation
Data Cleaning
Data Transformation
Data Reduction
Well-formed
Data
Real-world
Data
· Collect data
· Select data
· Integrate data
· Impute missing values
· Reduce noise in data
· Eliminate inconsistencies
· Normalize data
· Discretize/aggregate data
· Construct new attributes
· Reduce number of variables
· Reduce number of cases
· Balance skewed data
-
Veri Madenciliği Süreci: SEMMA
Sample
(Generate a representative
sample of the data)
Modify(Select variables, transform
variable representations)
Explore(Visualization and basic
description of the data)
Model(Use variety of statistical and
machine learning models )
Assess(Evaluate the accuracy and
usefulness of the models)
SEMMA
-
Veri Madenciliği Yöntemleri: Sınıflandırma
• En çok kullanılan yöntemdir
• Makine öğrenmesi algoritmaları kullanılır
• Eğiticili öğrenme yöntemi benimsenir
• Eski veriden öğren, yeni veriyi sınıflandır
• Çıkış verisi genelde kategoriktir
-
Sınıflandırmanın Başarı Ölçümü
• Öngörüsel tutarlılık
– Hit rate
• Hız
– Model oluşturma, öngörüde bulunma
• Sağlamlık
• Ölçeklenebilirlik
• Birlikte çalışabilirlik
– Anaşılır olmak
-
Sınıflandırma modellerinde tutarlılık
• Sınıflandırma başarısı konfüzyon matrisi denen matris ile ölçülür
True
Positive
Count (TP)
False
Positive
Count (FP)
True
Negative
Count (TN)
False
Negative
Count (FN)
True Class
Positive Negative
Po
sitiv
eN
eg
ative
Pre
dic
ted
Cla
ss FNTP
TPRatePositiveTrue
FPTN
TNRateNegativeTrue
FNFPTNTP
TNTPAccuracy
FPTP
TPrecision
P
FNTP
TPcallRe