Menghitung jarak antar variabel kategorikal
Dalam latihan ini, Anda akan mengeksplorasi cara menghitung jarak biner (Jaccard).
Untuk menghitung jarak, terlebih dahulu kita perlu melakukan dummification pada kategori menggunakan dummy.data.frame() dari pustaka dummies.
Anda akan menggunakan sejumlah kecil hasil survei yang disimpan dalam data frame job_survey dengan kolom berikut:
- job_satisfaction Opsi yang mungkin: "Hi", "Mid", "Low"
- is_happy Opsi yang mungkin: "Yes", "No"
Latihan ini adalah bagian dari kursus
Analisis Klaster di R
Petunjuk latihan
- Buat data frame hasil dummification
dummy_survey. - Hasilkan matriks jarak Jaccard untuk data survei yang sudah didummify
dist_surveymenggunakan fungsidist()dengan parametermethod = 'binary'. - Cetak data asli dan matriks jarak.
- Perhatikan observasi dengan jarak 0 pada data asli (1, 2, dan 3).
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Dummify the Survey Data
dummy_survey <- ___
# Calculate the Distance
dist_survey <- ___
# Print the Original Data
___
# Print the Distance Matrix
___