Séparer les prix des maisons avec t-SNE

t-SNE est une technique non linéaire de réduction de dimension. Elle projette des données de grande dimension dans un espace de plus faible dimension. En le faisant, elle s’efforce de conserver les points proches de leurs voisins d’origine. Vous allez créer un graphique t-SNE que vous pourrez comparer au graphique PCA du dernier exercice. La PCA préserve la structure globale des données, mais pas la structure locale. t-SNE préserve la structure locale en gardant, dans l’espace de plus faible dimension, les voisins de l’espace de dimension supérieure proches les uns des autres. Vous le verrez sur les graphiques.

Vous appliquerez t-SNE pour réduire house_sales_df. La variable cible de house_sales_df est price. Les packages tidyverse et Rtsne ont été chargés pour vous.

Cet exercice fait partie du cours

Réduction de dimension en R

Afficher le cours

Instructions

Ajustez t-SNE à house_sales_df avec Rtsne().
Joignez les coordonnées X et Y de t-SNE à house_sales_df.
Tracez les résultats t-SNE avec ggplot(), en encodant la variable cible par la couleur.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Fit t-SNE
set.seed(1234)
tsne <- ___(___ %>% select(-___), check_duplicates = FALSE)

# Bind t-SNE coordinates to the data frame
tsne_df <- ___ %>% 
  ___(tsne_x = ___$___[,___], tsne_y = ___$___[,___])

# Plot t-SNE
___ %>% 
  ___(aes(x = ___, y = ___, color = ___)) +
  geom_point() +
  scale_color_gradient(low="gray", high="blue")

Modifier et exécuter le code