MulaiMulai sekarang secara gratis

Dampak skala

Anda telah mempelajari bahwa ketika suatu variabel berada pada skala yang lebih besar daripada variabel lain dalam himpunan data Anda, variabel tersebut dapat secara tidak proporsional memengaruhi jarak yang dihitung antarobservasi. Mari kita lihat langsung dengan mengamati sampel data dari himpunan data trees.

Anda akan memanfaatkan fungsi scale() yang secara bawaan melakukan centering dan scaling pada fitur kolom kita.

Variabel kita adalah sebagai berikut:

  • Girth - diameter pohon dalam inci
  • Height - tinggi pohon dalam inci

Latihan ini adalah bagian dari kursus

Analisis Klaster di R

Lihat Kursus

Petunjuk latihan

  • Hitung matriks jarak untuk data frame three_trees dan simpan sebagai dist_trees.
  • Buat variabel baru scaled_three_trees di mana data three_trees di-centering dan di-scaling.
  • Hitung dan cetak matriks jarak untuk scaled_three_trees dan simpan sebagai dist_scaled_trees.
  • Keluarkan kedua matriks dist_trees dan dist_scaled_trees, lalu amati perubahan observasi mana yang memiliki jarak terkecil antara kedua matriks (petunjuk: mereka telah berubah).

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Calculate distance for three_trees 
dist_trees <- ___

# Scale three trees & calculate the distance  
scaled_three_trees <- ___
dist_scaled_trees <- ___

# Output the results of both Matrices
print('Without Scaling')
___

print('With Scaling')
___
Edit dan Jalankan Kode