Hauspreise mit t-SNE trennen
t-SNE ist eine nichtlineare Technik zur Dimensionsreduktion. Sie bettet hochdimensionale Daten in einen Raum mit weniger Dimensionen ein. Dabei versucht sie, Punkte in der Nähe ihrer ursprünglichen Nachbarn zu halten. Du erstellst ein t-SNE-Diagramm, das du mit dem PCA-Diagramm aus der letzten Übung vergleichen kannst. PCA erhält die globale Struktur der Daten, aber nicht die lokale Struktur. t-SNE erhält die lokale Struktur, indem es Nachbarn im hochdimensionalen Raum auch im niedrigdimensionalen Raum nah beieinander hält. Das wirst du in den Diagrammen sehen.
Du wendest t-SNE an, um house_sales_df zu reduzieren. Die Zielvariable von house_sales_df ist price. Die Pakete tidyverse und Rtsne wurden bereits für dich geladen.
Diese Übung ist Teil des Kurses
Dimensionsreduktion in R
Anleitung zur Übung
- Passe t-SNE mit
Rtsne()aufhouse_sales_dfan. - Binde die t-SNE-X- und -Y-Koordinaten an
house_sales_df. - Visualisiere die t-SNE-Ergebnisse mit
ggplot()und kodiere die Zielvariable über die Farbe.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Fit t-SNE
set.seed(1234)
tsne <- ___(___ %>% select(-___), check_duplicates = FALSE)
# Bind t-SNE coordinates to the data frame
tsne_df <- ___ %>%
___(tsne_x = ___$___[,___], tsne_y = ___$___[,___])
# Plot t-SNE
___ %>%
___(aes(x = ___, y = ___, color = ___)) +
geom_point() +
scale_color_gradient(low="gray", high="blue")