Tahapan Data Mining (pertemuan 1)

 




Tahapan Data Mining


A. Cross-Industry Standard Process for Data Mining 

       Adalah salah satu model proses datamining (datamining framework) yang awalnya (1996) dibangun oleh 5 perusahaan yaitu Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation dan  OHRA. Framework ini kemudian dikembangan oleh ratusan organisasi dan perusahaan di Eropa untuk dijadikan methodology standard non-proprietary bagi data mining

Tahapan tahapan yang ada di Cross-Industry Standard Process for Data Mining meliputi :
1. Business Understanding
Adalah tahap pertama dalam CRISP-DM dan termasuk bagian yang cukup vital. Pada tahap ini membutuhkan pengetahuan dari objek bisnis, bagaimana membangun atau mendapatkan data, dan bagaimana untuk mencocokan tujuan pemodelan untuk tujuan bisnis sehingga model terbaik dapat dibangun.

2. Data Understanding
Secara garis besar untuk memeriksa data, sehingga dapat mengidentifikasi masalah dalam data. Tahap ini memberikan fondasi analitik untuk sebuah penelitian dengan membuat ringkasaan (summary) dan mengidentifikasi potensi masalah dalam data.

3. Data Preparation
Secara garis besar untuk memperbaiki masalah dalam data, kemudian membuat variabel derived.

4. Modeling
Secara garis besar untuk membuat model prediktif atau deskriptif. Pada tahap ini dilakukan metode statistika dan Machine Learning untuk penentuan terhadap teknik data mining, alat bantu data mining, dan algoritma data mining yang akan diterapkan.

5. Evaluation
Melakukan interpretasi terhadap hasil dari data mining yang dihasilkan dalam proses pemodelan pada tahap sebelumnya

6. Deployment
Tahap deployment atau rencana penggunaan model adalah tahap yang paling dihargai dari proses CRISP-DM.

B. SEMMA (Sample, Explore, Modify, Model, Assess)

SEMMA adalah kerangka kerja yang dikembangkan oleh SAS Institute.

Tahapan-tahapan dalam SEMMA meliputi:

  1. Sample: Mengambil sampel data yang representatif.
  2. Explore: Eksplorasi dan visualisasi data untuk memahami karakteristik dan hubungannya.
  3. Modify: Persiapan data, termasuk pemilihan variabel dan transformasi data.
  4. Model: Pengembangan model untuk menganalisis data.
  5. Assess: Evaluasi model dan memastikan kecocokannya dengan kebutuhan bisnis.
  6. SEMMA sering digunakan dalam lingkungan analitik yang lebih tradisional.
C. CCC (Computational, Cognitive, and Communication)

CCC adalah pendekatan yang menekankan pada integrasi antara komputasi, kognisi manusia, dan komunikasi.

Tahapan-tahapan dalam CCC mencakup:

  1. Computational: Proses analisis data menggunakan algoritma komputasi dan teknik data mining.
  2. Cognitive: Melibatkan pemahaman manusia, interpretasi, dan konteks bisnis dalam proses analisis data.
  3. Communication: Berbagi temuan dan hasil analisis dengan pemangku kepentingan bisnis.
  4. Pendekatan ini menekankan pentingnya interaksi antara komputer dan manusia dalam proses data mining.
  5. Setiap kerangka kerja memiliki kelebihan dan kekurangan tertentu, dan pilihan kerangka kerja tergantung pada konteks bisnis, kompleksitas masalah, dan preferensi organisasi yang terlibat dalam proyek data mining.
Kesimpulan :

  • CRISP-DM adalah kerangka kerja yang kuat dan terstruktur dengan baik, berfokus pada langkah-langkah iteratif dari memahami masalah bisnis hingga menerapkan model.
  • SEMMA menekankan urutan langkah-langkah untuk mempersiapkan dan memodelkan data, biasanya digunakan oleh SAS untuk alat data mining mereka.
  • CCC mengintegrasikan aspek komputasi dengan pemahaman kognitif dan komunikasi yang efektif, memastikan proses yang holistik dan hasil yang dapat ditindaklanjuti.
  • Komentar

    Postingan populer dari blog ini

    PHYSICAL MODEL