Huizenprijzen scheiden met t-SNE

t-SNE is een niet-lineaire techniek voor dimensiereductie. Het embedt hoog-dimensionale data in een ruimte met minder dimensies. Daarbij probeert het punten dicht bij hun oorspronkelijke buren te houden. Je maakt een t-SNE-plot die je kunt vergelijken met de PCA-plot in de vorige oefening. PCA behoudt de globale structuur van de data, maar niet de lokale structuur. t-SNE behoudt de lokale structuur door buren in de hoger-dimensionale ruimte ook dicht bij elkaar te houden in de lager-dimensionale ruimte. Dat zie je terug in de plots.

Je past t-SNE toe om house_sales_df te reduceren. De doelvariabele van house_sales_df is price. De pakketten tidyverse en Rtsne zijn al voor je geladen.

Deze oefening maakt deel uit van de cursus

Dimensionality Reduction in R

Bekijk cursus

Oefeninstructies

Pas t-SNE toe op house_sales_df met Rtsne().
Voeg de t-SNE X- en Y-coördinaten toe aan house_sales_df.
Plot de t-SNE-resultaten met ggplot() en geef de doelvariabele weer in kleur.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Fit t-SNE
set.seed(1234)
tsne <- ___(___ %>% select(-___), check_duplicates = FALSE)

# Bind t-SNE coordinates to the data frame
tsne_df <- ___ %>% 
  ___(tsne_x = ___$___[,___], tsne_y = ___$___[,___])

# Plot t-SNE
___ %>% 
  ___(aes(x = ___, y = ___, color = ___)) +
  geom_point() +
  scale_color_gradient(low="gray", high="blue")

Code bewerken en uitvoeren