Hauspreise mit UMAP trennen

Du hast die Dimensionalität der kalifornischen Hausverkaufsdaten (house_sales_df) bereits mit PCA und t-SNE reduziert. Jetzt verwendest du UMAP. Das Endergebnis von UMAP ist dem von t-SNE sehr ähnlich; UMAP ist jedoch oft rechnerisch effizienter. Außerdem versucht UMAP, mehr von der globalen Struktur zu erhalten. Praktisch bedeutet das: Du kannst den Abstand zwischen Clustern als Maß für ihre Ähnlichkeit interpretieren — etwas, das mit t-SNE nicht möglich war.

Denk daran: Die Zielvariable von house_sales_df ist price. Setze num_comp = 2. Die Pakete tidyverse und embed sind bereits geladen.

Diese Übung ist Teil des Kurses

Dimensionsreduktion in R

Kurs anzeigen

Anleitung zur Übung

Fitte UMAP auf alle Prädiktoren in house_sales_df mithilfe von step_umap() in einem Rezept und speichere die transformierten Daten in umap_df.
Zeichne die UMAP-Dimensionen mit ggplot() und kodiere die Zielvariable price über die Farbe.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>% 
  ___(___()) %>% 
  ___(___(), num_comp = 2) %>% 
  prep() %>% 
  ___() 

# Plot UMAP
___ %>%  
  ___(aes(x = ___, y = ___, color = ___)) +
  ___(alpha = 0.7) +
  scale_color_gradient(low="gray", high="blue")

Code bearbeiten und ausführen