[Langkah Sederhana] Statisik: Bagaimana Memperlakukan Missing Data, Lengkap dengan Penjelasannya
Simple steps, statistics: how to fix missing values, complete with explanations
Hallo sobat yang punya motivasi tinggi! Semoga sehat selalu ya! kali ini penulis membagikan tutorial tentang cara memperlakukan data missing. Sebagaimana pada tulisan yang lalu, penulis sudah membagikan cara uji keacakan missing value. Missing value pada dasarnya merupakan kondisi dimana ada satu atau sejumlah data tidak tersedia atau hilang dalam sebuah set data. Jika hal itu terjadi maka bagaimana menyikapinya. Bagaimana memperbaikinya. Ayo simak dalam tulisan kali ini ya!
Missing Value |
Jadi apabila pada set data di temukan adanya missing value (data hilang, tidak ada, tidak tersedia) kemudian missing value tersebut terbukti bersifat random maka seperti apa perlakuan pada data tersebut.
Missing data yang bersifat random merupakan kondisi dimana missing data atau ketiadaan data tersebut tidak mengandung unsur kesengajaan dan tidak mengikuti pola kondisi tertentu. Misalnya missing data hanya terjadi pada satu variabel saja (Santoso, 2013)
Sejumlah perlakuan (treatment) pada missing data yang random
1. Membuang data (baris atau kasus) bisa juga membuang variabel atau kolom dimana ada missing data di dalamnya
2. Mengisi data yang hilang dengan data tertentu yang dinilai mendekati kenyataan seandainya data tersebut terisi. Dari pada membuang satu baris disebabkan hanya karena hilangnya satu data tertentu atau bahkan membuang satu variabel. Olehnya itu mengisi data yang hilang dapat berbeda-beda dan yang sering digunakan yaitu mengisi menggunakan rata-rata keseluruhan data. Misalnya ketika ingin mengisi data hilang pada variabel tinggi badan maka gunakan rata-rata tinggi badan secara keseluruhan. Lakukan pengisian semua data tinggi badan dengan rata-rata tersebut.
Contoh kasus
Mengambil contoh data yang penulis posting sebelumnya sebagai berikut:
- Buka file data atau buat data seperti di atas.
- Klik menu Transform-Replace missing value
Lakukan pengisian seperti ini:
- Masukan variabel umur, berat badan, tinggi badan, penghasilan dan jam kerja ke kotak new variables. Mengapa di sebut varibel baru (new) karena selanjutnya akan muncul variabel tambahan sebanyak 5 variabel. Jadi dimasukan 5 variabel tersebut karena memang ada datanya yang missing.
- Lihat pada bagian name dan method
- Pada kotak name secara otomatis menunjukka ada variabel baru misalnya Umur_1 sebagai pengganti variabel Umur. Pada dasarnya bisa diganti dengan nama lain. Namun demikian agar terlihat seragam dapat dibiarkan saja sesuai yang ditampilkan SPSS. Adapun bagian method ditunjukkan berbagai method. Namun agar seragam biarkan saja sebagaimana yang ditampilkan SPSS yaitu method series mean.
Sebagai alternatif misalnya jika ingin mengganti methode maka klik Method (tanda panah) lalu pilih misalnya Mean of nearby points. Ini artinya menghitung rata-rata dari dua data yang berdekatan (Santoso, 2013) Misalnya lihat pada data konsumen bernama Nurintan, widriani dan Milasari. Pada variabel umur pada data Widriani tidak tersedia (missing) maka untuk mengisi data kosong tersebut diambil rata-rata dari data Nurintan 35 dan data Milasari 37 sebesar 36.
- Biarkan bagian lainnya lalu Ok, dan hasil seperti ini:
Pada tabel di atas terlihat variabel umur memiliki 3 data missing yang diganti. Kemudian variabel berat badan terdapat 4 data yang diganti. Begitupun variabel lainnya.
Penggantian data yang hilang berdasarkan rata-rata. Terlihat pada variabel umur khususnya data widriani telah digantikan oleh data (Umur_1) sebesar 36,93 tahun sehingga setiap ada data yang hilang pada variabel umur digantikan oleh angka 36,93 tahun. Hal ini sama seperti pada konsumen bernama Faizal yang data missingnya di gantikan angka yang sama. Begitupun variabel lainnya.
Menurut (Santoso, 2013) bahwa dalam penggunaan data pada berbagai keperluan analisis, maka data yang digunakan bisa memakai data pengganti yaitu 5 variabel seperti contoh di atas. Kemudian bisa menggunakan metode Listwise atau juga bisa menggunakan metode Pairwise. Namun demikian tergantung tujuan penelitian yang ditetapkan.
Sahabatku yang baik. Pada dasarnya masih banyak contoh-contoh yang disajikan dalam berbagai referensi. Tulisan ini untuk menambah referensi dan pemahaman kita (termasuk penulis sendiri). Olehnya itu penulis membuka diri menerima segala kritikan dan saran yang sifatnya konstruktif. Semoga bermanfaat ya! Terima kasih sudah membaca tulisan ini. Sehat dan bahagia selalu. Salam Damai!