Data Preparation & Data Visualization_Data Mining (Pertemuan 2)
Data preparation adalah proses pengumpulan, penggabungan, penataan, dan pengorganisasian data sehingga dapat digunakan dalam aplikasi business intelligence (BI), analitik, dan visualisasi data. Proses ini terkadang juga disebut dengan istilah data wrangling. Salah satu fungsi utama data preparation adalah memastikan keakuratan dan konsistensi data mentah yang disiapkan untuk pemrosesan dan analisis.
Contoh dalam Google Colab :
1. Persiapan Data dengan Pandas
Persiapan data yang akan digunakan dalam analisis adalah langkah pertama dalam analisis data statistik. Dalam kebanyakan kasus, sebagian besar waktu yang dihabiskan untuk proyek pemodelan statistik dihabiskan untuk mengimpor, membersihkan, memvalidasi, dan mengubah kumpulan data.
Dalam bagian ini, pandas, paket Python pihak ketiga yang sangat penting untuk analisis data, akan diperkenalkan sebagai alat untuk persiapan data. Itu juga akan memberikan beberapa rekomendasi umum tentang apa yang harus atau tidak boleh dilakukan terhadap data sebelum dianalisis.
2. Series
Series adalah vektor data tunggal (seperti array NumPy) dengan label untuk setiap elemen.
Jika indeks tidak ditentukan, urutan bilangan bulat default ditetapkan sebagai indeks. Array NumPy terdiri dari nilai Series
, sedangkan indeksnya adalah objek Indeks
pandas.
Series
.
Komentar
Posting Komentar