Veri Madenciliği Giriş · 2012. 4. 13. · –CRISP-DM –SEMMA –KDD . Amaçlar •Veri...

23
Veri Madenciliği - Giriş Erdem Alparslan

Transcript of Veri Madenciliği Giriş · 2012. 4. 13. · –CRISP-DM –SEMMA –KDD . Amaçlar •Veri...

  • Veri Madenciliği - Giriş

    Erdem Alparslan

  • Amaçlar

    • İş zekasının önemli bir parçası olan veri madenciliğinin tanımı

    • İş analizi ve veri madenciliğinin amaçlarının anlaşılması

    • Veri madenciliğini kullanan çok çeşitli uygulama alanlarının anlatılması

    • Standart veri madenciliği methodolojilerinin öğrenilmesi

    – CRISP-DM

    – SEMMA

    – KDD

  • Amaçlar

    • Veri önişlemede gerekli adımların öğrenilmesi

    • Veri madenciliğinde kullanılan metod ve algoritmaların öğrenilmesi

    • Mevcut veri madenciliği yazılımlarının gözden geçirilmesi

    – Ticari ya da açık kaynak kodlu

  • Niçin veri madenciliği?

    • Global ölçekte daha iyi rekabet şansı yakalama

    • Veri kaynaklarındaki gizli değerin keşfedilebilmesi

    • Verideki kalitenin artırılması

    • Veri kaynaklarının veri ambarına konsolide edilmesi

    • Maliyeti azalan kabiliyeti artan veri önişleme araçlarının artması

    • Bilgideki elektronikleşme

  • Tanım

    • The nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data stored in structured databases - Fayyad et al., (1996)

    • Anahtar kelimeler: Süreç, hemen farkedilmeyen, geçerli, yenilikçi, kullanım potansiyeli olan, anlaşılabilir

    • Diğer isimleri: knowledge extraction, pattern analysis, knowledge discovery, information harvesting, pattern searching, data dredging

  • Disiplinlerarası çalışma biçimi

    Sta

    tistic

    s

    Management Science &

    Information Systems

    Artificia

    l Inte

    lligence

    Databases

    Pattern

    Recognition

    Machine

    Learning

    Mathematical

    Modeling

    DATA

    MINING

  • Veri madenciliği – kısıtlamalar kullanımlar

    • VM kaynak verisi genellikle veri ambarıdır (her zaman değil!)

    • VM için en önemli hammadde veridir. Bu veri her zaman yapısal olmayabilir.

    • Madenci genellikle son kullanıcı olur.

    • Çok iyi modeller kurmak yaratıcı düşünce gerektirir.

    • VM için kullanılan araç ve ürünler genellikle baz yeteneklere sahiptir

  • Veri Madenciliğinde Veri

    • Veri: Gözlemleri, olguların ya da deneylerin sonucunda toplanan yorumlanabilen ölçütlerdir

    • Veri sayılardan, metinlerden, görüntülerden ya da çok farklı formlardan oluşabilir

    • Bilginin oluşabilmesi için yorumlamaya ihtiyaç duyulan hammaddedir

    Data

    Categorical Numerical

    Nominal Ordinal Interval Ratio

  • What Does DM Do? How Does it Work?

    • VM verideki örüntüleri(patern) yakalar

    – Patern nedir?

    Veri satırları arasında matematiksel, sayısal vb ilintilerden oluşan bir korelasyon bütünüdür

    • Patern çeşitleri

    – Birliktelik

    – Öngörü

    – Küme

    – Sıralı (ya da zamana göre ardışık) ilişkili

  • Veri Madenciliği Görevlerinin Taksonomisi

    Data Mining

    Prediction

    Classification

    Regression

    Clustering

    Association

    Link analysis

    Sequence analysis

    Learning Method Popular Algorithms

    Supervised

    Supervised

    Supervised

    Unsupervised

    Unsupervised

    Unsupervised

    Unsupervised

    Decision trees, ANN/MLP, SVM, Rough

    sets, Genetic Algorithms

    Linear/Nonlinear Regression, Regression

    trees, ANN/MLP, SVM

    Expectation Maximization, Apriory

    Algorithm, Graph-based Matching

    Apriory Algorithm, FP-Growth technique

    K-means, ANN/SOM

    Outlier analysis Unsupervised K-means, Expectation Maximization (EM)

    Apriory, OneR, ZeroR, Eclat

    Classification and Regression Trees,

    ANN, SVM, Genetic Algorithms

  • Veri Madenciliği Uygulamaları

    • Müşteri İlişkileri Yönetimi – Pazarlama kampanyalarında getirinin maksimizasyonu

    – Müşteri sadakatinin artırılması (churn analizi)

    – Müşteri değerinin artırılması(cross- ya da up-selling)

    – Platinum müşteri tespiti

    • Bankacılık ya da finans sektörü – Kredi başvurusu sürecinin otomatize edilmesi

    – Sahtekarlık işlemlerinin tespiti

    – Müşteri değerinin artırılması(cross- ya da up-selling)

    – Nakit rezervinin optimize edilmesi

  • Veri Madenciliği Uygulamaları

    • Lojistik ve taşıma – Farklı lokasyonlardaki envanter seviyelerinin optimizasyonu

    – Satış promosyanları ve mağaza görünümünün iyileştirilmesi

    – Sezonsal değişimlere göre lojistik optimizasyonu

    – Son kullanma tarihi nedeniyle ürün kaybının azaltılması

    • Üretim ve bakım – Makine arızalarının erken tespiti

    – Üretim kapasitesini etkileyecek makine anormalliklerinin önceden tespiti

    – Ürün kalitesini artırıcı yeni paternlerin keşfi

  • Veri Madenciliği Uygulamaları

    • Sigortacılık

    – Sigorta meblalarının daha iyi tahmin edilmesi

    – Optimal sigorta taksitinin belirlenmesi

    – Spesifik müşterilere spesifik pazarlama yapılması

    – Sahtekarlık olabilecek sigorta işlerinin tespiti

  • Veri Madenciliği Uygulamaları

    • Bilgisayar yazılım ve donanımlarında

    • Mühendislik ve fen bilimlerinde

    • Savunma sanayiinde

    • Anayurt güvenliğinde

    • Ulaşım endüstrisinde

    • Sağlıkta

    • İlaçta

    • Eğlence endüstrisinde

    • Sporda

    • Vb.

    Oldukça popüler alanlardır

  • Veri Madenciliği Süreci

    • En iyi pratiklerin bütününü oluşturmayı hedefler

    • VM projelerini sistematik hale getirmeyi hedefler

    • Farklı etkileşim grupları birbirine benzer ama ayrı süreçler geliştirmiştir

    • En popüler ortak standartlar:

    – CRISP-DM (Cross-Industry Standard Process for Data Mining)

    – SEMMA (Sample, Explore, Modify, Model, and Assess)

    – KDD (Knowledge Discovery in Databases)

  • Data Mining Process

    Source: KDNuggets.com, August 2007

  • Data Mining Process: CRISP-DM

    Data Sources

    Business

    Understanding

    Data

    Preparation

    Model

    Building

    Testing and

    Evaluation

    Deployment

    Data

    Understanding

    6

    1 2

    3

    5

    4

  • Data Mining Process: CRISP-DM

    Adım 1: İş probleminin tespiti

    Adım 2: Veri nin anlaşılması

    Adım 3: Veri hazırlama (!)

    Adım 4: Model oluşturma

    Adım 5: Test ve iyileştirme

    Adım 6: Canlı ortama alış

    • Süreç hem döngüzel hem de artımsal ilerler

    Proje süresinin %85

    kısmı

  • Veri Ön hazırlık – kritik bir görev

    Data Consolidation

    Data Cleaning

    Data Transformation

    Data Reduction

    Well-formed

    Data

    Real-world

    Data

    · Collect data

    · Select data

    · Integrate data

    · Impute missing values

    · Reduce noise in data

    · Eliminate inconsistencies

    · Normalize data

    · Discretize/aggregate data

    · Construct new attributes

    · Reduce number of variables

    · Reduce number of cases

    · Balance skewed data

  • Veri Madenciliği Süreci: SEMMA

    Sample

    (Generate a representative

    sample of the data)

    Modify(Select variables, transform

    variable representations)

    Explore(Visualization and basic

    description of the data)

    Model(Use variety of statistical and

    machine learning models )

    Assess(Evaluate the accuracy and

    usefulness of the models)

    SEMMA

  • Veri Madenciliği Yöntemleri: Sınıflandırma

    • En çok kullanılan yöntemdir

    • Makine öğrenmesi algoritmaları kullanılır

    • Eğiticili öğrenme yöntemi benimsenir

    • Eski veriden öğren, yeni veriyi sınıflandır

    • Çıkış verisi genelde kategoriktir

  • Sınıflandırmanın Başarı Ölçümü

    • Öngörüsel tutarlılık

    – Hit rate

    • Hız

    – Model oluşturma, öngörüde bulunma

    • Sağlamlık

    • Ölçeklenebilirlik

    • Birlikte çalışabilirlik

    – Anaşılır olmak

  • Sınıflandırma modellerinde tutarlılık

    • Sınıflandırma başarısı konfüzyon matrisi denen matris ile ölçülür

    True

    Positive

    Count (TP)

    False

    Positive

    Count (FP)

    True

    Negative

    Count (TN)

    False

    Negative

    Count (FN)

    True Class

    Positive Negative

    Po

    sitiv

    eN

    eg

    ative

    Pre

    dic

    ted

    Cla

    ss FNTP

    TPRatePositiveTrue

    FPTN

    TNRateNegativeTrue

    FNFPTNTP

    TNTPAccuracy

    FPTP

    TPrecision

    P

    FNTP

    TPcallRe