Jelajahi data gender
Data gender memuat indeks Weight, Height, dan BMI dari 10.000 orang. Data asli memiliki label Gender untuk 5.000 orang yang mengidentifikasi diri sebagai perempuan dan 5.000 lainnya sebagai laki-laki. Label ini akan berguna nanti untuk menguji seberapa baik kinerja pengelompokan dibandingkan label sebenarnya. Namun, dalam subset himpunan data ini, label tidak disertakan.
Data gender_with_probs juga memuat probabilitas setiap titik data termasuk ke dalam suatu cluster. Karena kita tertarik pada dua cluster, probabilitas mendekati 1 mengacu pada satu cluster dan mendekati 0 pada cluster lainnya.
Tujuan latihan ini adalah agar Anda mendapat gambaran tentang seperti apa tampilan himpunan data pengelompokan yang khas sebelum dan sesudah pengelompokan.
Latihan ini adalah bagian dari kursus
Model Campuran di R
Petunjuk latihan
- Gunakan fungsi
headuntuk melihat 6 observasi pertama darigender. - Gunakan fungsi
headuntuk melihat 6 observasi pertama darigender_with_probs. - Buat scatterplot dengan
Weightpada sumbu x danBMIpada sumbu y. Warnai titik berdasarkan probabilitasnya.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Have a look to gender (before clustering)
head(___)
# Have a look to gender_with_probs (after clustering)
head(___)
# Scatterplot with probabilities
gender_with_probs %>%
ggplot(aes(x = ___, y = ___, col = ___))+
geom_point(alpha = 0.5)