Tahapan Data Mining (pertemuan 1)
Tahapan Data Mining
Adalah salah satu model proses datamining (datamining framework) yang awalnya (1996) dibangun oleh 5 perusahaan yaitu Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation dan OHRA. Framework ini kemudian dikembangan oleh ratusan organisasi dan perusahaan di Eropa untuk dijadikan methodology standard non-proprietary bagi data mining
Tahapan tahapan yang ada di Cross-Industry Standard Process for Data Mining meliputi :
1. Business Understanding
Adalah tahap pertama dalam CRISP-DM dan termasuk bagian yang cukup vital. Pada tahap ini membutuhkan pengetahuan dari objek bisnis, bagaimana membangun atau mendapatkan data, dan bagaimana untuk mencocokan tujuan pemodelan untuk tujuan bisnis sehingga model terbaik dapat dibangun.
2. Data Understanding
Secara garis besar untuk memeriksa data, sehingga dapat mengidentifikasi masalah dalam data. Tahap ini memberikan fondasi analitik untuk sebuah penelitian dengan membuat ringkasaan (summary) dan mengidentifikasi potensi masalah dalam data.
3. Data Preparation
Secara garis besar untuk memperbaiki masalah dalam data, kemudian membuat variabel derived.
4. Modeling
Secara garis besar untuk membuat model prediktif atau deskriptif. Pada tahap ini dilakukan metode statistika dan Machine Learning untuk penentuan terhadap teknik data mining, alat bantu data mining, dan algoritma data mining yang akan diterapkan.
5. Evaluation
Melakukan interpretasi terhadap hasil dari data mining yang dihasilkan dalam proses pemodelan pada tahap sebelumnya
6. Deployment
Tahap deployment atau rencana penggunaan model adalah tahap yang paling dihargai dari proses CRISP-DM.
B. SEMMA (Sample, Explore, Modify, Model, Assess)
SEMMA adalah kerangka kerja yang dikembangkan oleh SAS Institute.
Tahapan-tahapan dalam SEMMA meliputi:
- Sample: Mengambil sampel data yang representatif.
- Explore: Eksplorasi dan visualisasi data untuk memahami karakteristik dan hubungannya.
- Modify: Persiapan data, termasuk pemilihan variabel dan transformasi data.
- Model: Pengembangan model untuk menganalisis data.
- Assess: Evaluasi model dan memastikan kecocokannya dengan kebutuhan bisnis.
- SEMMA sering digunakan dalam lingkungan analitik yang lebih tradisional.
C. CCC (Computational, Cognitive, and Communication)
CCC adalah pendekatan yang menekankan pada integrasi antara komputasi, kognisi manusia, dan komunikasi.
Tahapan-tahapan dalam CCC mencakup:
- Computational: Proses analisis data menggunakan algoritma komputasi dan teknik data mining.
- Cognitive: Melibatkan pemahaman manusia, interpretasi, dan konteks bisnis dalam proses analisis data.
- Communication: Berbagi temuan dan hasil analisis dengan pemangku kepentingan bisnis.
- Pendekatan ini menekankan pentingnya interaksi antara komputer dan manusia dalam proses data mining.
- Setiap kerangka kerja memiliki kelebihan dan kekurangan tertentu, dan pilihan kerangka kerja tergantung pada konteks bisnis, kompleksitas masalah, dan preferensi organisasi yang terlibat dalam proyek data mining.
Kesimpulan :
Komentar
Posting Komentar