CommencerCommencer gratuitement

Séparer les prix des maisons avec UMAP

Vous avez réduit la dimensionnalité des ventes de maisons en Californie (house_sales_df) avec PCA et t-SNE. Vous allez maintenant utiliser UMAP. Le résultat final d’UMAP est très proche de celui de t-SNE ; cependant, UMAP est généralement plus efficace en calcul. Il cherche aussi à conserver davantage la structure globale. Concrètement, vous pouvez interpréter la distance entre les groupes comme une mesure de similarité — ce qui n’était pas possible avec t-SNE.

Rappel : la variable cible de house_sales_df est price. Définissez num_comp = 2. Les packages tidyverse et embed ont été chargés pour vous.

Cet exercice fait partie du cours

Réduction de dimension en R

Afficher le cours

Instructions

  • Ajustez UMAP à tous les prédicteurs de house_sales_df avec step_umap() dans une recette et stockez les données transformées dans umap_df.
  • Représentez les dimensions UMAP avec ggplot(), en encodant la variable cible price par la couleur.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Fit UMAP
set.seed(1234)
umap_df <- ___(___ ~ ., data = ___) %>% 
  ___(___()) %>% 
  ___(___(), num_comp = 2) %>% 
  prep() %>% 
  ___() 

# Plot UMAP
___ %>%  
  ___(aes(x = ___, y = ___, color = ___)) +
  ___(alpha = 0.7) +
  scale_color_gradient(low="gray", high="blue")
Modifier et exécuter le code