Dampak skala
Anda telah mempelajari bahwa ketika suatu variabel berada pada skala yang lebih besar daripada variabel lain dalam himpunan data Anda, variabel tersebut dapat secara tidak proporsional memengaruhi jarak yang dihitung antarobservasi. Mari kita lihat langsung dengan mengamati sampel data dari himpunan data trees.
Anda akan memanfaatkan fungsi scale() yang secara bawaan melakukan centering dan scaling pada fitur kolom kita.
Variabel kita adalah sebagai berikut:
- Girth - diameter pohon dalam inci
- Height - tinggi pohon dalam inci
Latihan ini adalah bagian dari kursus
Analisis Klaster di R
Petunjuk latihan
- Hitung matriks jarak untuk data frame
three_treesdan simpan sebagaidist_trees. - Buat variabel baru
scaled_three_treesdi mana datathree_treesdi-centering dan di-scaling. - Hitung dan cetak matriks jarak untuk
scaled_three_treesdan simpan sebagaidist_scaled_trees. - Keluarkan kedua matriks
dist_treesdandist_scaled_trees, lalu amati perubahan observasi mana yang memiliki jarak terkecil antara kedua matriks (petunjuk: mereka telah berubah).
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Calculate distance for three_trees
dist_trees <- ___
# Scale three trees & calculate the distance
scaled_three_trees <- ___
dist_scaled_trees <- ___
# Output the results of both Matrices
print('Without Scaling')
___
print('With Scaling')
___