QUIZ PERTEMUAN 5 DATA MINING

Bagian 1. Pendahuluan

Di era modern, meningkatkan kualitas pendidikan menjadi semakin sulit. Tingkat kelulusan yang tepat waktu dan durasi studi mahasiswa di perguruan tinggi adalah dua indikator keberhasilan pendidikan. Oleh karena itu, sangat penting untuk memahami dengan baik komponen yang memengaruhi kelulusan tepat waktu. Tujuan dari laporan ini adalah untuk melakukan analisis menyeluruh tentang komponen yang mempengaruhi kelulusan tepat waktu dan lama studi di lingkungan akademik. Di antara tugas analisis yang dilakukan adalah integrasi dan pembersihan data serta pengenalan pola atau tren yang mempengaruhi lulusan secara cepat. Dalam analisis lulusan tepat waktu, masalah berikut akan dibahas.

1. Langkah-langkah apa saja dalam integrasi dan pembersihan data serta analisis pola lulusan tepat waktu?

2. Bagaimana hasil analisis statistik tersebut?

Data yang digunakan yaitu data transkip_nilai dan data lulusan dari universitas. Data transkrip nilai sebanyak 256299 mencakup detail nilai yang diperoleh mahamahasiswa untuk mata kuliah yang diambil. Data transkip memiliki tipe data berikut.

Variabel	Tipe Data
id	int64
nim	object
kode_mk	object
nama_mk	object
nama_mk_indo	object
nama_mk_ing	object
nilai_grade	float64
nilai_total	float64
semester	int64
sks_mk	int64
grade	object

Sedangkan data lulusan sebanyak 4542 data memberikan informasi demografis dan akademik mahamahasiswa, termasuk tanggal masuk dan lulus, serta predikat kelulusan. Data lulusan memiliki tipe data sebagai berikut.

Variabel	Tipe Data
nim	object
prodi	object
predikat	object
tanggal_lulus	object
tgl_masuk	object
status_masuk	int64
jenis_kelamin	int64
tahun_lahir	int64
status_pegawai	int64
nim	object
prodi	object

Bagian 2. Pembahasan

2.1 Integrasi dan Pembersihan data

Pertama, data transkip nilai dan lulusan dikumpulkan untuk digunakan. Parameter df_transkip digunakan untuk data transkip nilai dan df_lulusan untuk data lulusan. Gambar berikut menunjukkan lima data awal dari masing-masing dataset.

Kemudian, melakukan proses integrasi dan pembersihan data sebagai berikut :

2.1.1 Mencari Indeks Prestasi Semester (IPS) setiap semester permahamahasiswa IPS merupakan hasil pencapaian di tiap semester dalam bentuk indeks prestasi. IPS dihitung dengan cara sebagai berikut.

1. Mencari nilai kamulatif per mata kuliah pada satu semester.

nilai kamulatif = nilai grade (besaran nilai) × SKS

2. Setelah mendapatkan nilai kamulatif per mata kuliah, selanjutnya menjumlahkan semua nilai kamulatif selama satu semester.

3. Selanjutnya hasil penjumlahan tersebut dibagi dengan total SKS yang diajukan selama satu semester.

IPS =

Adapun codingan untuk menghitung IPS adalah sebagai berikut:

Pada ilustrasi kode di atas adalah membuat variabel ‘ips_df’. Kemudian pada variabel tersebut dilakukan penggabungan data transkip pada kolom ‘nim’ dan ‘semester’. Selanjutnya dilakukan perhitungan pada kolom ‘nilai_grade’ dikalikan dengan ‘sks_mk’ dan menjumlahkan hasilnya. Kemudian membagi hasil penjumlahan tersebut dengan total ‘sks_mk’ per semester. Selanjutnya hasil IPS tersebut dibulatkan menggunakan fungsi ‘round()’ menjadi dua angka di belakang koma, dan disimpan pada parameter ‘IPS’. Sehingga hasil yang didapatkan adalah sebagai berikut.

2.1.2 Menggabungkan IPS dengan data lulusan

Langkah selanjutnya adalah menggabungkan hasil perhitungan IPS pada ‘ips_df’ dengan data lulusan pada ‘df_lulusan’ dengan fungsi merge berdasarkan kolom ‘nim’. Penggabungan tersebut dilakukan di dalam variabel ‘merged_df’.

Dari Pengabungan tersebut menghasilkan 36227 baris dan 11 kolom.

2.1.3 Mencari durasi studi mahasiswa

Untuk menghitung durasi studi mahamahasiswa dilakukan dengan mengurangkan ‘tanggal_lulus’ dan ‘tgl_masuk’. Namun sebelumnya telah dijelaskan bahwa ‘tanggal_lulus’ dan ‘tgl_masuk’ menggunakan tipe data object, sehingga perlu diubah menjadi datetime. Mengubah tipe data menggunakan fungsi datetime().

Selanjutnya menghitung durasi studi setiap mahamahasiswa dengan mengurangi ‘tanggal_masuk’ dari ‘tgl_lulus’, kemudian dibagi dengan 365 hari (satu tahun). Hasilnya dibulatkan ke satu desimal untuk mendapatkan durasi studi dalam tahun.

Kemudian mengabungkan hasil durasi studi ke dalam satu kolom dengan menggunakan format ‘tahun, bulan, dengan data durasi ‘merge_data’ dengan fungsi merge berdasarkan kolom ‘durasi_studi’. Yang kemudian menambahkan kolom ‘lulus tepa waktu’ berdasarkan hasil kondisi durasi studi.

Hasilnya adalah sebagai berikut

2.1.4 Pembersihan data, mengidentifikasi, dan mengilangkan mahasiswa pindahan

Pembersihan data yang dilakukan meliputi pengecekan missing value dan duplikasi. Missing value menggunakan fungsi ‘isnull()’ dan ‘sum()’ untuk menjumlahkan nilai yang hilang atau kosong jika ada.

Kode tersebut menghasilkan nol (0) missing value pada setiap kolom sehingga tidak perlu penghapusan missing value. Hasilnya dapat dilihat pada gambar di bawah ini.

Selanjutnya menghapus mahamahasiswa pindahan. Pada data ini mahamahasiswa pindahan atau tidak terdapat pada kolom ‘status_masuk’ yang terdiri dari nilai ‘0’ dan ‘1’. Pada mahamahasiswa pindahan ditandai dengan nilai ‘1’. Sehingga pada langkah kali ini, akan menghapus kolom ‘status_masuk’ yang bernilai ‘1’ dengan menggunkan fungsi drop().

Untuk mengecek apakah proses penghapusan tersebut berhasil atau tidak bisa dilakukan cetak jumlah data menggunakan ‘print’

2.1.5 Standarisasi format tanggal dan jenis kelamin

Karena format tanggal sudah diganti menjadi tipe data datetime sehingga tidak perlu dilakukan standarisasi. Selanjutnya adalah standarisasi jenis kelamin. Pada data saat ini jenis kelamin terdiri dari nilai ‘0’ dan ‘1’. Standarisasi yang akan dilakukan yaitu mengganti nilai ‘0’ menjadi ‘laki-laki’ dan ‘1’ menjadi ‘perempuan’.

Sehingga data terbarunya menjadi sebagai berikut:

2.2 Mencari tren atau pola yang mempengaruhi lulusan tepat waktu

2.2.1 Mengidentifikasi hubungan antara IPS dengan lulusan tepat waktu.

Pada langkah ini dilakukan untuk memahami apakah terdapat perbedaan signifikan dalam rata-rata nilai IPS antara mahamahasiswa yang lulus tepat waktu dan yang tidak tepat waktu. Untuk itu perlu memastikan kolom ‘lulus tepat waktu’ memiliki data numerik dan apakah ‘ips’ dan ‘lulus tepat waktu’ memiliki korelasi

Pada kasus ini pengujian statistik menggunakan ‘ttest_ind’ dari pustaka ‘scipy.stats’ yang dapat dilihat pada gambar berikut.

Berdasarkan gambar kode di atas, langkah pertama memilih kolom yang diperlukan yaitu ‘IPS’ dan ‘lulus_tepat_waktu’. Selanjutnya menghitung rata-rata nilai ‘IPS’ untuk kelompok lulus tepat waktu dan tidak tepat waktu pada kolom ‘lulus_tepat_waktu’. Berikutnya dilakuakn uji statistik untuk menentukan apakah terdapat perbedaan yang signifikan antara rata-rata IPS antara kedua kelompok.

Dari hasil di atas terdapat perbedaan yang signifikan dalam rata-rata IPS antara kelompok lulus tepat waktu dan tidak tepat waktu.

2.2.2 Analisis Kolerasi Positif antara predikat kelulusan ‘Pujian’ dengan lulusan tepat waktu

Pada gambar di atas, pertama-tama dilakukan analisis frekuensi predikat berdasarkan lulus tepat waktu menggunakan filtered_data. Data frekuensi tersebut disimpan dalam variabel ‘predikat’. Kemudian dilakukanpenghitungan frekuensi predikat, yang kemudian menghasilkan data seperti gambar dibawah ini.

2.2.2 Analisis durasi studi lebih pendek berkorelasi dengan predikat kelulusan yang lebih baik

Pertama menghitung total jumlah dari lulusan terlebih dahulu, sehingga data predikat kelulusan valid yang dipertimbangkan. Selanjutnya, hitung jumlah lulusan dan proposi keseluruan lulusan tepat waktu. Sehingga akan menghasilkan seperti gambar dibawah ini.

Hasilnya menunjukkan bahwa rata-rata durasi studi lebih rendah yang mendapat predikat kelulusan yang lebih tinggi, yaitu 'Pujian' dan 'Sangat Memuaskan', dibandingkan dengan siswa yang mendapat predikat 'Memuaskan'. Visualisasi durasi studi berdasarkan predikat dapat dilihat pada gambar berikut.

2.2.3 Analisis rata-rata nilai total apakah ada perbedaan signifikan dalam prestasi akademik berdasarkan jenis kelamin

pertama tama pisahkan data menjadi dua kelompok jenis kelamin, menggunakan 'merge data' dengan kolom 'jenis_kelamin'. yang kemudian pengujian t-student menggunakan 't-stastistic.

Sehingga hasilnya adalah sebagai berikut

Cari Blog Ini

Basis Data

QUIZ PERTEMUAN 5 DATA MINING

Komentar

Posting Komentar

Postingan populer dari blog ini

Post 5 (Semester 4) : Penggunaan View, Primary Key dan Index dengan 2 Contoh Kasus yang Berbeda

Data Preparation & Data Visualization_Data Mining (Pertemuan 2)

APA ITU ATTRIBUTE, ENTITAS, DAN RELASI DALAM ERD