Come together
Die Features für die Modelle, die du gleich ausführst, stecken im Datensatz timbre. Die Zielvariable – das Jahr – befindet sich jedoch im Datensatz track_metadata. Bevor du das Modell startest, musst du diese beiden Datensätze zusammenführen. In diesem Fall gibt es eine 1:1-Zuordnung der Zeilen in beiden Datensätzen, daher brauchst du einen Inner Join.
Es gibt noch eine Aufgabe zur Datenbereinigung: Die Spalte year enthält Ganzzahlen, aber die Spark-Modellfunktionen erwarten reelle Zahlen. Du musst die Spalte year in numeric umwandeln.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in Spark mit sparklyr in R</Kurs>Übungsanweisungen
Eine Spark-Verbindung wurde bereits als spark_conn erstellt. Die in Spark gespeicherten Tibbles für Track-Metadaten bzw. Timbre-Daten sind als track_metadata_tbl und timbre_tbl vordefiniert.
- Führe einen Inner Join der Track-Metadaten mit den Timbre-Daten über die Spalte
track_iddurch. - Wandle die Spalte
yearinnumericum.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# track_metadata_tbl, timbre_tbl pre-defined
track_metadata_tbl
timbre_tbl
track_metadata_tbl %>%
# Inner join to timbre_tbl
___ %>%
# Convert year to numeric
___