K-Means Cluster (Part 2): Contoh Kasus Bisa Diterapkan Dalam Penelitian Skripsi atau Tesis
Contoh Kasus
Seorang Manajer berprestasi bernama Mu’ayanah Magfirah baru saja ditempatkan sebagai pucuk pimpianan pada cabang perusahaan pembuat Roti merk “Enak Mantul”. Dalam upaya meningkatkan permintaan di sejumlah Kecamatan di Sulawesi Tengah maka manajer ingin mengelompokkan konsumen Roti “Enak Mantul” berdasarkan profil masing-masing konsumen sebagai berikut:
1. Umur Konsumen (Tahun)
2. Jumlah anggota keluarga (orang)/AK
3. Penghasilan Konsumen (Rp/bulan)/PK
4. Frekuensi membaca Koran setiap minggu (Jam)/MK
5. Frekuensi nonton TV setiap minggu (Jam)/MT
6. Frekuansi mengakses internet setiap minggi (Jam)/MI
7. Jumlah sepeda motor milik konsumen (Unit)
8. Jumlah Kendaraan roda empat milik konsumen (Unit)
9. Frekuensi membeli Roti setiap minggu (Unit)/MR
Dikumpulkan data profil konsumen dari 21 orang konsumen. Ingat ya! ini hanya contoh, Pada dasarnya makin besar populasi makin baik. Hasil pengumpulan data disajikan dalam data view SPSS berikut ini:
Menilai Perlu Tidaknya Melakukan Transformasi Data
Terlihat pada data di atas mengandung berbagai satuan. Dalam artian data cukup bervariasi. Ada yang memiliki satuan puluhan, ratuan dan ribuan. Sehingga menurut Santoso (2012) perbedaan satuan yang mencolok seperti ini akan menyebabkan bias dalam analisis cluster, sehingga data asli harus di transformasi (standarisasi) sebelum bisa di analisis. Dengan demikian, perlu dilakukan transformasi terhadap variabel yang relevan kebentuk z score.
Langkah-langkah transformasi data yaitu:
- Buka data views seperti di atas
- Klik Analyze → Descriptive Statistics → Descriptives, sehingga tampak kotak dialog
Output data pada data editor berubah yang tadi hanya terdiri dari 11 variabel kini bertambah 9 variabel dengan adanya imbuhan “z” di depan masing-masing variabel yang bertambah tersebut. Kemudian ada output tambahan descriptive Statistics yang akan digunakan saat penafsiran hasil cluster.
Analisis K-Means Cluster
Data telah di standarisasi sebagaimana langkah-langkah di atas. Berikutnya mari kita lanjutkan dengan memilih metode pembentukan cluster menggunakan metode K-Means Cluster.
- Buka data editor
- Klik Analyze → Classify → K-Means Cluster… lalu muncul:
- Pada kotak variables masukan semua variabel yang berawan “z” yaitu zAK, zPK, zMK, zMT, zMI, zMotor, zMobil dan zMR
- Pada label cases By, masukan variabel domisili
- Number of Cluster atau jumlah cluster yang akan dibentuk. Pengisian cluster bebas, dan untuk keseragaman ketik 3 (Artinya terbentuk 3 kelompok. Pada umumnya antara 2-5 cluster dan tergantung pula dengan tujuan penelitian)
- Klik Saves…, muncul kotak dialog
- Aktifkan kotak cluster membership dan distance from cluster center lalu klik continue untuk kembali ke menu sebelumnya.
- Klik menu Options hingga tampak kotak dialog:
- Pada bagian statistics biarkan kotak initial cluster center tetap aktif, kemudian aktifkan kotak anova table
- Pada missing values kosongkan saja jika semua data lengkap terisi.
- Klik continue guna kembali ke menu sebelumnya, lalu tekan Ok.
Variabel qcl_1 dan qcl_2 digunakan dalam pembuatan tabulasi silang (crosstab) serta grafik yang sesuai namun penulis akan membahasnya nanti.
2. Output kedua merupakan hasil proses clustering dan ditampilkan satu demi satu sebagai berikut:Awal proses clustering
Ini merupakan tampilan awal sebelum dilakukan iterasi. Karena akan menghasilkan proses clustering yang sama dengan yang dihasilkan di akhir proses cluster maka output ini tidak di analisis.
Ouput di atas merupakan proses iterasi yang berusaha merubah-rubah sebelumnya sehingga menjadi lebih tepat dalam pengelompokkan 21 kasus (responden). Melalui delapan tahapan iterasi (maksudnya proses pengurangan dengan ketepatan yang lebih tinggi dari sebelumnya) diperoleh cluster akhir sebagai berikut:
Hasil akhir clustering centers
Output di atas merupakan akhir dari dari proses clustering.
Analisis Akhir Proses Clustering Metode K-Means Clustering
Terlihat pada tabel di atas suatu proses standarisasi data sebelumnya yang didasarkan pada nilai z dengan ketentuan:
- Nilai bertanda negative menunjukkan data di bawah rata-rata total
- Nilai bertanda positive menunjukkan data di atas rata-rata total
Jika kita ambil contoh pada angka 0,0980 pada variabel zscore: jumlah anggota keluarga menyatakan rata-rata sia responden pada cluster 1 yaitu:
X=µ + z.σ
(Santoso 2012:126)
Keterangan:
X=Rata-rata sampel (Rata-rata variabel pada cluster tertentu)
µ=Rata-rata populasi
σ=Standar deviasi
z=Nilai standarisasi (SPSS)
Jika diterapkan dalam variabel umur sebagai berikut:
Rata-rata umur responden cluster 1
(Rata-rata umur seluruh responden) - (0,75381 x standar deviasi rata-rata umur seluruh responden)
Rata-rata umur responden cluster 2
(Rata-rata umur seluruh responden) + (0,63899 x standar deviasi rata-rata umur seluruh responden)
Demikian seterusnya dalam menafsirkan data yang lain, tentunya dengan mengacu rata-rata dan standar deviasi variabel yang bersangkutan, seperti angka untuk variabel jumlah anggota keluarga dikaitkan dengan rata-rata anggota keluarga dan standar deviasinya.
Perbedaan Variabel Pada Cluster yang Terbentuk
Berdasarkan pembentukan 3 cluster tersebut, tahapan berikutnya adalah memeriksa apakah variabel yang terbentuk memiliki perbedaan masing-masing cluster. Caranya mudah sekali dengan melihat output ANOVA sebagai berikut:
Coba sahabat perhatikan tabel di atas ya! pada kolom cluster terdapat besaran between cluster mean, sedangkan kolom error menunjukkan besaran within cluster mean, sehingga kolom F adalah:
Begitupun seterusnya bisa sahabat hitung sendiri ya!
Berdasarkan perhitungan di atas menunjukkan makin besar nilai F suatu variabel dan angka signifikannya dibawah 0,05 maka semakin besar pula perbedaan variabel tersebut pada ketiga cluster yang terbentuk.
Misalnya angka F terbesar 11,093 variabel jumlah mobil dengan angka signifikansi 0,000 yang berarti memiliki perbedaan yang nyata. Hal ini menunjukkan variabel jumlah mobil sangat membedakan karakteristik ketiga cluster. Atau bisa juga dikatakan kepemilikan mobil oleh responden pada ketiga cluster yang ada sangat berbeda antar cluster yang satu dengan lainnya. Penafsiran lainnya juga mengikuti bentuk penafsiran seperti itu.
Jumlah Anggota Setiap Cluster
Mari kita lihat komposisi anggota cluster di setiap cluster yang terbentuk. Berikut ini disajikan tabel number of cases in each cluster:
Berdasarkan tabel di atas menunjukkan responden terbanyak terdapat pada cluster 2 yaitu 8 orang. Adapun paling sedikit terdapat pada cluster 3 sebanyak 6 orang. Semua data responden sudah terpetakan secara keseluruhan yang ditunjukkan oleh nilai missing sebesar 0,000.
Dari tabel tersebut bisa saja strategi untuk merebut pasar potensial di Sulawesi Tengah dapat diarahkan ke cluster 2 sebagai golongan menengah. Kemudian pada cluster 3 bisa di garap walaupun jumlahnya lebih kecil, demikian pula pada cluster 1. Sahabat bisa menggali lebih banyak informasi dari hasil perhitungan ini ya!
Tulisan di atas bisa digunakan sebagai tambahan referensi buat sahabat. Silahkan di kombinasikan dengan refereni lainnya. Terima kasih sudah membaca tulisan ini. Masih banyak tulisan menarik lainnya di blog ini ya! silahkan di simak. Sehat selalu dan jangan lupa bahagia.