Come together
Die Features für die Modelle, die du gleich ausführst, stecken im Datensatz timbre. Die Zielvariable – das Jahr – befindet sich jedoch im Datensatz track_metadata. Bevor du das Modell startest, musst du diese beiden Datensätze zusammenführen. In diesem Fall gibt es eine 1:1-Zuordnung der Zeilen in beiden Datensätzen, daher brauchst du einen Inner Join.
Es gibt noch eine Aufgabe zur Datenbereinigung: Die Spalte year enthält Ganzzahlen, aber die Spark-Modellfunktionen erwarten reelle Zahlen. Du musst die Spalte year in numeric umwandeln.
Diese Übung ist Teil des Kurses
Einführung in Spark mit sparklyr in R
Anleitung zur Übung
Eine Spark-Verbindung wurde bereits als spark_conn erstellt. Die in Spark gespeicherten Tibbles für Track-Metadaten bzw. Timbre-Daten sind als track_metadata_tbl und timbre_tbl vordefiniert.
- Führe einen Inner Join der Track-Metadaten mit den Timbre-Daten über die Spalte
track_iddurch. - Wandle die Spalte
yearinnumericum.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# track_metadata_tbl, timbre_tbl pre-defined
track_metadata_tbl
timbre_tbl
track_metadata_tbl %>%
# Inner join to timbre_tbl
___ %>%
# Convert year to numeric
___