MulaiMulai sekarang secara gratis

Memisahkan harga rumah dengan UMAP

Anda telah mereduksi dimensi data penjualan rumah California (house_sales_df) menggunakan PCA dan t-SNE. Sekarang Anda akan menggunakan UMAP. Hasil akhir UMAP sangat mirip dengan t-SNE, namun UMAP cenderung lebih efisien secara komputasi. UMAP juga berupaya mempertahankan lebih banyak struktur global. Secara praktis, ini berarti Anda dapat menafsirkan jarak antarkelompok sebagai ukuran kemiripan — sesuatu yang tidak dapat dilakukan dengan t-SNE.

Ingat, variabel target dari house_sales_df adalah price. Tetapkan num_comp = 2. Paket tidyverse dan embed telah dimuat untuk Anda.

Latihan ini adalah bagian dari kursus

Reduksi Dimensi di R

Lihat Kursus

Petunjuk latihan

  • Fit UMAP pada semua prediktor di house_sales_df menggunakan step_umap() dalam sebuah recipe dan simpan data yang telah ditransformasi ke umap_df.
  • Plot dimensi UMAP menggunakan ggplot(), dengan menyandikan variabel target price sebagai warna.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>% 
  ___(___()) %>% 
  ___(___(), num_comp = 2) %>% 
  prep() %>% 
  ___() 

# Plot UMAP
___ %>%  
  ___(aes(x = ___, y = ___, color = ___)) +
  ___(alpha = 0.7) +
  scale_color_gradient(low="gray", high="blue")
Edit dan Jalankan Kode