LoslegenKostenlos loslegen

Come together

Die Features für die Modelle, die du gleich ausführst, stecken im Datensatz timbre. Die Zielvariable – das Jahr – befindet sich jedoch im Datensatz track_metadata. Bevor du das Modell startest, musst du diese beiden Datensätze zusammenführen. In diesem Fall gibt es eine 1:1-Zuordnung der Zeilen in beiden Datensätzen, daher brauchst du einen Inner Join.

Es gibt noch eine Aufgabe zur Datenbereinigung: Die Spalte year enthält Ganzzahlen, aber die Spark-Modellfunktionen erwarten reelle Zahlen. Du musst die Spalte year in numeric umwandeln.

Diese Übung ist Teil des Kurses

Einführung in Spark mit sparklyr in R

Kurs anzeigen

Anleitung zur Übung

Eine Spark-Verbindung wurde bereits als spark_conn erstellt. Die in Spark gespeicherten Tibbles für Track-Metadaten bzw. Timbre-Daten sind als track_metadata_tbl und timbre_tbl vordefiniert.

  • Führe einen Inner Join der Track-Metadaten mit den Timbre-Daten über die Spalte track_id durch.
  • Wandle die Spalte year in numeric um.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# track_metadata_tbl, timbre_tbl pre-defined
track_metadata_tbl
timbre_tbl

track_metadata_tbl %>%
  # Inner join to timbre_tbl
  ___ %>%
  # Convert year to numeric
  ___
Code bearbeiten und ausführen