Huizenprijzen scheiden met t-SNE
t-SNE is een niet-lineaire techniek voor dimensiereductie. Het embedt hoog-dimensionale data in een ruimte met minder dimensies. Daarbij probeert het punten dicht bij hun oorspronkelijke buren te houden. Je maakt een t-SNE-plot die je kunt vergelijken met de PCA-plot in de vorige oefening. PCA behoudt de globale structuur van de data, maar niet de lokale structuur. t-SNE behoudt de lokale structuur door buren in de hoger-dimensionale ruimte ook dicht bij elkaar te houden in de lager-dimensionale ruimte. Dat zie je terug in de plots.
Je past t-SNE toe om house_sales_df te reduceren. De doelvariabele van house_sales_df is price. De pakketten tidyverse en Rtsne zijn al voor je geladen.
Deze oefening maakt deel uit van de cursus
Dimensionality Reduction in R
Oefeninstructies
- Pas t-SNE toe op
house_sales_dfmetRtsne(). - Voeg de t-SNE X- en Y-coördinaten toe aan
house_sales_df. - Plot de t-SNE-resultaten met
ggplot()en geef de doelvariabele weer in kleur.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Fit t-SNE
set.seed(1234)
tsne <- ___(___ %>% select(-___), check_duplicates = FALSE)
# Bind t-SNE coordinates to the data frame
tsne_df <- ___ %>%
___(tsne_x = ___$___[,___], tsne_y = ___$___[,___])
# Plot t-SNE
___ %>%
___(aes(x = ___, y = ___, color = ___)) +
geom_point() +
scale_color_gradient(low="gray", high="blue")