Postingan

Pre-processing_Data Mining (Pertemuan 3)

Gambar
 Data Preprocessing  A. Data Cleaning      Data cleaning adalah proses identifikasi, koreksi, dan penghapusan kesalahan serta ketidaksesuaian dalam dataset agar data tersebut dapat digunakan secara efektif dalam analisis. Dalam Google Colab : .str.replace("","") mengganti satu string di setiap baris kolom dengan string lainnya .str.split("") mengambil sebuah string dan memungkinkan Anda membagi kolom menjadi dua berdasarkan string tersebut .astype() memungkinkan Anda mengonversi kolom dari satu tipe ke tipe lainnya B. Data Collection      Data collection adalah proses pengumpulan informasi atau data dari berbagai sumber untuk tujuan analisis, penelitian, atau pengambilan keputusan. Dalam Google Collab : Collecting data dari Roboflow untuk selanjutnya dilakukan training C. Data Transform       Data transform adalah proses manipulasi atau perubahan struktur data dari satu bentuk ke bentuk lainnya untuk memenuhi kebutuhan analisis atau pengolahan data tertent

Data Preparation & Data Visualization_Data Mining (Pertemuan 2)

Gambar
A. Data Preparation       Data preparation  adalah proses pengumpulan, penggabungan, penataan, dan pengorganisasian data sehingga dapat digunakan dalam aplikasi  business intelligence  (BI), analitik, dan visualisasi data. Proses ini   terkadang juga disebut dengan istilah  data wrangling .  Salah satu fungsi utama  data preparation  adalah memastikan keakuratan dan konsistensi data mentah yang disiapkan untuk pemrosesan dan analisis. Contoh dalam Google Colab : 1.  Persiapan Data dengan Pandas      Persiapan data yang akan digunakan dalam analisis adalah langkah pertama dalam analisis data statistik. Dalam kebanyakan kasus, sebagian besar waktu yang dihabiskan untuk proyek pemodelan statistik dihabiskan untuk mengimpor, membersihkan, memvalidasi, dan mengubah kumpulan data.      Dalam bagian ini, pandas, paket Python pihak ketiga yang sangat penting untuk analisis data, akan diperkenalkan sebagai alat untuk persiapan data. Itu juga akan memberikan beberapa rekomendasi umum tentang ap

Tahapan Data Mining (pertemuan 1)

Gambar
  Tahapan Data Mining A. Cross-Industry Standard Process for Data Mining          A dalah salah satu model proses datamining (datamining framework) yang awalnya (1996) dibangun oleh 5 perusahaan yaitu Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation dan  OHRA. Framework ini kemudian dikembangan oleh ratusan organisasi dan perusahaan di Eropa untuk dijadikan methodology standard non-proprietary bagi data mining Tahapan tahapan yang ada di  Cross-Industry Standard Process for Data Mining meliputi : 1. Business Understanding Adalah tahap pertama dalam CRISP-DM dan termasuk bagian yang cukup vital. Pada tahap ini membutuhkan pengetahuan dari objek bisnis, bagaimana membangun atau mendapatkan data, dan bagaimana untuk mencocokan tujuan pemodelan untuk tujuan bisnis sehingga model terbaik dapat dibangun. 2. Data Understanding Secara garis besar untuk memeriksa data, sehingga dapat mengidentifikasi masalah dalam data. Tahap ini memberikan fondasi analitik untuk sebuah penel

QUIZ PERTEMUAN 5 DATA MINING

Gambar
  Bagian 1. Pendahuluan                 Di era modern, meningkatkan kualitas pendidikan menjadi semakin sulit. Tingkat kelulusan yang tepat waktu dan durasi studi mahasiswa di perguruan tinggi adalah dua indikator keberhasilan pendidikan. Oleh karena itu, sangat penting untuk memahami dengan baik komponen yang memengaruhi kelulusan tepat waktu. Tujuan dari laporan ini adalah untuk melakukan analisis menyeluruh tentang komponen yang mempengaruhi kelulusan tepat waktu dan lama studi di lingkungan akademik. Di antara tugas analisis yang dilakukan adalah integrasi dan pembersihan data serta pengenalan pola atau tren yang mempengaruhi lulusan secara cepat. Dalam analisis lulusan tepat waktu, masalah berikut akan dibahas. 1.       Langkah-langkah apa saja dalam integrasi dan pembersihan data serta analisis pola lulusan tepat waktu? 2.       Bagaimana hasil analisis statistik tersebut? Data yang digunakan yaitu data transkip_nilai dan data lulusan dari universitas. Data transkrip nila