Memisahkan harga rumah dengan UMAP
Anda telah mereduksi dimensi data penjualan rumah California (house_sales_df) menggunakan PCA dan t-SNE. Sekarang Anda akan menggunakan UMAP. Hasil akhir UMAP sangat mirip dengan t-SNE, namun UMAP cenderung lebih efisien secara komputasi. UMAP juga berupaya mempertahankan lebih banyak struktur global. Secara praktis, ini berarti Anda dapat menafsirkan jarak antarkelompok sebagai ukuran kemiripan — sesuatu yang tidak dapat dilakukan dengan t-SNE.
Ingat, variabel target dari house_sales_df adalah price. Tetapkan num_comp = 2. Paket tidyverse dan embed telah dimuat untuk Anda.
Latihan ini adalah bagian dari kursus
Reduksi Dimensi di R
Petunjuk latihan
- Fit UMAP pada semua prediktor di
house_sales_dfmenggunakanstep_umap()dalam sebuah recipe dan simpan data yang telah ditransformasi keumap_df. - Plot dimensi UMAP menggunakan
ggplot(), dengan menyandikan variabel targetpricesebagai warna.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>%
___(___()) %>%
___(___(), num_comp = 2) %>%
prep() %>%
___()
# Plot UMAP
___ %>%
___(aes(x = ___, y = ___, color = ___)) +
___(alpha = 0.7) +
scale_color_gradient(low="gray", high="blue")