Hauspreise mit UMAP trennen
Du hast die Dimensionalität der kalifornischen Hausverkaufsdaten (house_sales_df) bereits mit PCA und t-SNE reduziert. Jetzt verwendest du UMAP. Das Endergebnis von UMAP ist dem von t-SNE sehr ähnlich; UMAP ist jedoch oft rechnerisch effizienter. Außerdem versucht UMAP, mehr von der globalen Struktur zu erhalten. Praktisch bedeutet das: Du kannst den Abstand zwischen Clustern als Maß für ihre Ähnlichkeit interpretieren — etwas, das mit t-SNE nicht möglich war.
Denk daran: Die Zielvariable von house_sales_df ist price. Setze num_comp = 2. Die Pakete tidyverse und embed sind bereits geladen.
Diese Übung ist Teil des Kurses
Dimensionsreduktion in R
Anleitung zur Übung
- Fitte UMAP auf alle Prädiktoren in
house_sales_dfmithilfe vonstep_umap()in einem Rezept und speichere die transformierten Daten inumap_df. - Zeichne die UMAP-Dimensionen mit
ggplot()und kodiere die Zielvariablepriceüber die Farbe.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>%
___(___()) %>%
___(___(), num_comp = 2) %>%
prep() %>%
___()
# Plot UMAP
___ %>%
___(aes(x = ___, y = ___, color = ___)) +
___(alpha = 0.7) +
scale_color_gradient(low="gray", high="blue")