Hauspreise mit t-SNE trennen

t-SNE ist eine nichtlineare Technik zur Dimensionsreduktion. Sie bettet hochdimensionale Daten in einen Raum mit weniger Dimensionen ein. Dabei versucht sie, Punkte in der Nähe ihrer ursprünglichen Nachbarn zu halten. Du erstellst ein t-SNE-Diagramm, das du mit dem PCA-Diagramm aus der letzten Übung vergleichen kannst. PCA erhält die globale Struktur der Daten, aber nicht die lokale Struktur. t-SNE erhält die lokale Struktur, indem es Nachbarn im hochdimensionalen Raum auch im niedrigdimensionalen Raum nah beieinander hält. Das wirst du in den Diagrammen sehen.

Du wendest t-SNE an, um house_sales_df zu reduzieren. Die Zielvariable von house_sales_df ist price. Die Pakete tidyverse und Rtsne wurden bereits für dich geladen.

Diese Übung ist Teil des Kurses

Dimensionsreduktion in R

Kurs anzeigen

Anleitung zur Übung

Passe t-SNE mit Rtsne() auf house_sales_df an.
Binde die t-SNE-X- und -Y-Koordinaten an house_sales_df.
Visualisiere die t-SNE-Ergebnisse mit ggplot() und kodiere die Zielvariable über die Farbe.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Fit t-SNE
set.seed(1234)
tsne <- ___(___ %>% select(-___), check_duplicates = FALSE)

# Bind t-SNE coordinates to the data frame
tsne_df <- ___ %>% 
  ___(tsne_x = ___$___[,___], tsne_y = ___$___[,___])

# Plot t-SNE
___ %>% 
  ___(aes(x = ___, y = ___, color = ___)) +
  geom_point() +
  scale_color_gradient(low="gray", high="blue")

Code bearbeiten und ausführen